Исследование причинно-следственных связей в языковых моделях: Генерация контрфактуальных строк

Изучение интерпретируемости языковых моделей (LLM) часто заимствует терминологию из калькуляции причинности Пирла (Pearl, 1989), где исследователи часто говорят о вмешательстве в параметры модели и контрфактуальной генерации строк. Фреймворк Пирла различает три уровня причинного рассуждения:

Ассоциация - первый уровень, который касается статистических корреляций, то есть наблюдения закономерностей в данных без взаимодействия с миром.
Вмешательство - второй уровень, который касается активного изменения переменных в мире и наблюдения их эффектов на макроуровне.
Контрфактуальность - третий уровень, который касается рассмотрения того, что могло бы произойти, если бы прошлые события развивались иначе.

Тем не менее, в литературе по LLM эти термины часто используются нечетко, особенно когда речь идет о контрфактуальности, которая остается сложной для строгого определения.

Контрфактуальная генерация из языковых моделей

В этой статье мы представляем хорошо определенное понятие контрфактуальности в LLM, используя фреймворк структурного уравнения моделирования (SEM). Контроль над LLM привел к значительным исследованиям в области целенаправленных вмешательств в модели. Одной из таких техник является репрезентативная хирургия, которая включает модификацию архитектуры LLM для манипулирования её внутренним представительным пространством. Гипотеза линейного подпространства предполагает, что человечески интерпретируемые концепции, такие как гендер или грамматическое число, закодированы в специфических линейных подпространствах представительного пространства LLM.

Структурное уравнение моделирования (SEM)

Мы начинаем с краткого обзора структурного уравнения моделирования, которое предоставляет фреймворк для обсуждения причинных манипуляций процесса генерации и позволяет нам точно определить интуитивное понятие контрфактуальности.

Определение 2.1 (Structural Equation Model (SEM)): Структурная уравнение модель (SEM) представляет собой кортеж (E = (S, F)), где (S) - это сигнатура, а (F) - набор структурных уравнений. Сигнатура (S = (U, V, R, I)) включает в себя:

(U) - конечный набор экзогенных случайных переменных ({U_1, ..., U_N}),
(V) - конечный набор эндогенных случайных переменных ({V_1, ..., V_M}),
(R) - назначает каждой переменной (X \in U \cup V) её диапазон значений,
(I) - набор вмешательств.

Языковые модели как обобщенные структурные уравнения модели

Мы показываем, как LLM можно представить как обобщенные структурные уравнения модели (GSEMs). Для этого мы используем трюк Гамбела-макс, который позволяет разделить детерминированный расчет логитов следующих символов и процесс выборки.

Теорема 2.1 (Трюк Гамбела-макс): Пусть (X) - категориальная случайная переменная над (M) категориями, где (P(X = m) = \frac{\exp(\pi_m)}{\sum_{m'=1}^M \exp(\pi_{m'})}), для (m \in {1, ..., M}) и данного вектора логитов (\pi \in \mathbb{R}^M). Трюк Гамбела-макс утверждает, что выборка из (X) может быть выполнена следующим образом:

Выберите (M) значений (y_1, ..., y_M) из стандартного распределения Гамбела (Gumbel(0, 1)),
Установите результат (X) как (m = \arg\max_{m' \in {1, ..., M}} \pi_{m'} + y_{m'}).

Генерация контрфактуальных строк

Представление LLM как GSEMs позволяет нам использовать обширный набор причинных инструментов для LLM. Мы сосредотачиваемся на генерации контрфактуальных строк для заданных наблюдаемых строк - строк, которые отличаются в определенных особенностях, но генерируются с тем же шумом выборки, что и ранее наблюдаемые.

Алгоритм генерации контрфактуальных строк

Мы разработали алгоритм, основанный на ретроспективной выборке Гамбела, который позволяет нам выводить латентные шумовые переменные и генерировать контрфактуальные строки для наблюдаемых строк. Этот алгоритм позволяет нам точно изучать эффекты вмешательства на уровне строк.

Эксперименты

Мы применили наш фреймворк для генерации контрфактуальных строк от моделей, подвергнутых вмешательствам. Модели, которые мы рассматривали, включают GPT2-XL (Radford et al., 2018) и LLaMA3-8b (Touvron et al., 2023), а вмешательства включали линейное управление, редактирование знаний и настройку инструкций.

Результаты

Наши эксперименты показали, что часто используемые техники вмешательства имеют значительные нежелательные побочные эффекты. Например, контрфактуальные строки показали, что вмешательства, основанные на гендере, могут неожиданно влиять на завершения текста, не связанные с гендером. Это бросает вызов идее достижения минимального изменения с помощью целенаправленных вмешательств и демонстрирует, что даже вмешательства, изменяющие небольшое подмножество параметров, могут не достигать желаемого целевого эффекта.

Заключение

Мы представили фреймворк для генерации истинных контрфактуальных строк из LLM, переформулировав LLM как обобщенные структурные уравнения модели с использованием трюка Гамбела-макс. Это позволяет нам точно моделировать совместное распределение над оригинальными и контрфактуальными строками, что позволяет нам исследовать причинные связи на самом высоком уровне иерархии Пирла. Наши эксперименты выявили, что обычно используемые техники вмешательства часто вызывают нежелательные семантические сдвиги в сгенерированном тексте, подчеркивая сложности достижения точных и изолированных вмешательств. Эти наблюдения подчеркивают необходимость разработки более утонченных методов, которые могут достигать целенаправленных изменений с минимальными побочными эффектами на выходы модели.

Статья на arxiv Оригинал pdf ablation representation intervention

Ай Дайджест