Свежая выжимка ml и AI статей - каждый день
Изучение интерпретируемости языковых моделей (LLM) часто заимствует терминологию из калькуляции причинности Пирла (Pearl, 1989), где исследователи часто говорят о вмешательстве в параметры модели и контрфактуальной генерации строк. Фреймворк Пирла различает три уровня причинного рассуждения:
Тем не менее, в литературе по LLM эти термины часто используются нечетко, особенно когда речь идет о контрфактуальности, которая остается сложной для строгого определения.
В этой статье мы представляем хорошо определенное понятие контрфактуальности в LLM, используя фреймворк структурного уравнения моделирования (SEM). Контроль над LLM привел к значительным исследованиям в области целенаправленных вмешательств в модели. Одной из таких техник является репрезентативная хирургия, которая включает модификацию архитектуры LLM для манипулирования её внутренним представительным пространством. Гипотеза линейного подпространства предполагает, что человечески интерпретируемые концепции, такие как гендер или грамматическое число, закодированы в специфических линейных подпространствах представительного пространства LLM.
Мы начинаем с краткого обзора структурного уравнения моделирования, которое предоставляет фреймворк для обсуждения причинных манипуляций процесса генерации и позволяет нам точно определить интуитивное понятие контрфактуальности.
Определение 2.1 (Structural Equation Model (SEM)): Структурная уравнение модель (SEM) представляет собой кортеж (E = (S, F)), где (S) - это сигнатура, а (F) - набор структурных уравнений. Сигнатура (S = (U, V, R, I)) включает в себя:
Мы показываем, как LLM можно представить как обобщенные структурные уравнения модели (GSEMs). Для этого мы используем трюк Гамбела-макс, который позволяет разделить детерминированный расчет логитов следующих символов и процесс выборки.
Теорема 2.1 (Трюк Гамбела-макс): Пусть (X) - категориальная случайная переменная над (M) категориями, где (P(X = m) = \frac{\exp(\pi_m)}{\sum_{m'=1}^M \exp(\pi_{m'})}), для (m \in {1, ..., M}) и данного вектора логитов (\pi \in \mathbb{R}^M). Трюк Гамбела-макс утверждает, что выборка из (X) может быть выполнена следующим образом:
Представление LLM как GSEMs позволяет нам использовать обширный набор причинных инструментов для LLM. Мы сосредотачиваемся на генерации контрфактуальных строк для заданных наблюдаемых строк - строк, которые отличаются в определенных особенностях, но генерируются с тем же шумом выборки, что и ранее наблюдаемые.
Мы разработали алгоритм, основанный на ретроспективной выборке Гамбела, который позволяет нам выводить латентные шумовые переменные и генерировать контрфактуальные строки для наблюдаемых строк. Этот алгоритм позволяет нам точно изучать эффекты вмешательства на уровне строк.
Мы применили наш фреймворк для генерации контрфактуальных строк от моделей, подвергнутых вмешательствам. Модели, которые мы рассматривали, включают GPT2-XL (Radford et al., 2018) и LLaMA3-8b (Touvron et al., 2023), а вмешательства включали линейное управление, редактирование знаний и настройку инструкций.
Наши эксперименты показали, что часто используемые техники вмешательства имеют значительные нежелательные побочные эффекты. Например, контрфактуальные строки показали, что вмешательства, основанные на гендере, могут неожиданно влиять на завершения текста, не связанные с гендером. Это бросает вызов идее достижения минимального изменения с помощью целенаправленных вмешательств и демонстрирует, что даже вмешательства, изменяющие небольшое подмножество параметров, могут не достигать желаемого целевого эффекта.
Мы представили фреймворк для генерации истинных контрфактуальных строк из LLM, переформулировав LLM как обобщенные структурные уравнения модели с использованием трюка Гамбела-макс. Это позволяет нам точно моделировать совместное распределение над оригинальными и контрфактуальными строками, что позволяет нам исследовать причинные связи на самом высоком уровне иерархии Пирла. Наши эксперименты выявили, что обычно используемые техники вмешательства часто вызывают нежелательные семантические сдвиги в сгенерированном тексте, подчеркивая сложности достижения точных и изолированных вмешательств. Эти наблюдения подчеркивают необходимость разработки более утонченных методов, которые могут достигать целенаправленных изменений с минимальными побочными эффектами на выходы модели.