Ай Дайджест - категория intervention

Исследование причинно-следственных связей в языковых моделях: Генерация контрфактуальных строк

Понимание и манипулирование механизмами причинного генерации в языковых моделях является ключевым для контроля их поведения. Предыдущие исследования в основном полагались на методы, такие как хирургическое вмешательство в представления — например, абляции модели или манипуляции линейными подпространствами, связанными с конкретными концепциями — для вмешательства в эти модели. Для точного понимания влияния вмешательств полезно рассмотреть контрафактуальные ситуации — например, как бы выглядело предложение, если бы оно было сгенерировано моделью после определенного вмешательства. Мы подчеркиваем, что контрафактуальное рассуждение концептуально отличается от вмешательств, как это выражено в причинной иерархии Пирла. Основываясь на этом наблюдении, мы предлагаем фреймворк для генерации истинных строковых контрафактуалов путем переформулирования языковых моделей как Обобщенных Структурно-Уравненных Моделей с использованием трюка Гамбела-макс. Это позволяет нам моделировать совместное распределение над исходными строками и их контрафактуалами, возникающими из одной и той же реализации шума выборки. Мы разработали алгоритм на основе ретроспективного семплирования Гамбела, который позволяет нам выводить скрытые переменные шума и генерировать контрафактуалы наблюдаемых строк. Наши эксперименты показывают, что подход производит значимые контрафактуалы, в то же время демонстрируя, что обычно используемые методы вмешательства имеют значительные нежелательные побочные эффекты.

2024-11-12counterfactual manipulation causality

Семантический центр: как языковые модели объединяют смыслы через языки и модальности

Современные языковые модели могут обрабатывать входные данные на различных языках и в различных модальностях. Мы предполагаем, что модели приобретают эту способность через обучение на общем пространстве представлений для разнородных типов данных (например, различные языки и модальности), которое размещает семантически похожие входные данные рядом друг с другом, даже если они принадлежат к разным модальностям или языкам. Мы называем это гипотезой семантического хаба, следуя модели "хаб-и-спицы" из нейронауки (Паттерсон и др., 2007), которая утверждает, что семантические знания в человеческом мозге организованы через трансмодальный семантический "хаб", который интегрирует информацию из различных модальностно-специфических "спиц" областей. Сначала мы показываем, что представления модели для семантически эквивалентных входных данных на разных языках схожи на промежуточных слоях, и что это пространство можно интерпретировать с использованием доминирующего языка предобучения модели через логит-линзу. Эта тенденция распространяется и на другие типы данных, включая арифметические выражения, код и визуальные/аудиальные входные данные. Вмешательства в общее пространство представлений в одном типе данных также предсказуемо влияют на выходные данные модели в других типах данных, что предполагает, что это общее пространство представлений не является просто рудиментарным побочным продуктом масштабного обучения на обширных данных, а активно используется моделью при обработке входных данных.

2024-11-11semantic training language