Ай Дайджест - категория causality

Исследование причинно-следственных связей в языковых моделях: Генерация контрфактуальных строк

Понимание и манипулирование механизмами причинного генерации в языковых моделях является ключевым для контроля их поведения. Предыдущие исследования в основном полагались на методы, такие как хирургическое вмешательство в представления — например, абляции модели или манипуляции линейными подпространствами, связанными с конкретными концепциями — для вмешательства в эти модели. Для точного понимания влияния вмешательств полезно рассмотреть контрафактуальные ситуации — например, как бы выглядело предложение, если бы оно было сгенерировано моделью после определенного вмешательства. Мы подчеркиваем, что контрафактуальное рассуждение концептуально отличается от вмешательств, как это выражено в причинной иерархии Пирла. Основываясь на этом наблюдении, мы предлагаем фреймворк для генерации истинных строковых контрафактуалов путем переформулирования языковых моделей как Обобщенных Структурно-Уравненных Моделей с использованием трюка Гамбела-макс. Это позволяет нам моделировать совместное распределение над исходными строками и их контрафактуалами, возникающими из одной и той же реализации шума выборки. Мы разработали алгоритм на основе ретроспективного семплирования Гамбела, который позволяет нам выводить скрытые переменные шума и генерировать контрафактуалы наблюдаемых строк. Наши эксперименты показывают, что подход производит значимые контрафактуалы, в то же время демонстрируя, что обычно используемые методы вмешательства имеют значительные нежелательные побочные эффекты.

2024-11-12intervention causality ablation