Понимает ли модель этот объект? Осведомлённость и галлюцинации в языковых моделях

Большие языковые модели (LLM) обладают замечательными способностями к обработке и генерации текста, но они также склонны к галлюцинациям — генерации текста, который кажется правдоподобным, но фактически неверен или не подтверждён доступной информацией. Эта проблема значительно ограничивает их применение в реальных сценариях, где важна точность информации, например, в здравоохранении. Несмотря на распространённость и важность этой проблемы, механизмы, определяющие, будет ли модель галлюцинировать на определённый запрос, остаются малоизученными.

В данной статье мы исследуем, как языковые модели могут распознавать объекты, о которых они обладают знаниями, и как это влияет на их поведение, включая отказ от ответа или генерацию галлюцинаций. Мы используем методы интерпретируемости, такие как разреженные автоэнкодеры (Sparse Autoencoders, SAEs), чтобы выявить направления в пространстве представлений модели, которые кодируют осведомлённость модели о своих собственных возможностях.

Использование разреженных автоэнкодеров

Разреженные автоэнкодеры (SAEs) — это инструменты интерпретации, которые помогают выявлять значимые направления в пространстве представлений модели. Они мотивированы гипотезой линейного представления (Linear Representation Hypothesis), которая утверждает, что интерпретируемые свойства входных данных (такие как настроение текста или его достоверность) кодируются как линейные направления в пространстве представлений. SAEs позволяют разложить представления модели на более интерпретируемые компоненты, что помогает понять, как модель обрабатывает и хранит информацию.

Механизмы распознавания объектов

Мы обнаружили, что ключевым механизмом, влияющим на галлюцинации, является распознавание объектов. SAEs помогли выявить направления в пространстве представлений, которые активируются, когда модель сталкивается с известным или неизвестным объектом. Например, если модель не знает о каком-то спортсмене или фильме, это направление активируется, указывая на то, что модель не может вспомнить факты об этом объекте.

Эти направления оказались причинно значимыми: они могут управлять поведением модели, заставляя её отказываться отвечать на вопросы о известных объектах или генерировать атрибуты для неизвестных объектов, когда она обычно бы отказалась.

Влияние на поведение модели

Наши эксперименты показали, что направления, выявленные SAEs, имеют причинное влияние на поведение модели в режиме чата, даже несмотря на то, что SAEs были обучены на базовой модели. Это свидетельствует о том, что процесс дообучения (fine-tuning) переиспользует существующие механизмы модели для новых задач, таких как отказ от ответа на вопросы, о которых модель не информирована.

Исследование механистической роли направлений

Мы также исследовали, как эти направления влияют на механизм извлечения фактов. Было обнаружено, что направления, связанные с неизвестными объектами, нарушают внимание модели, обычно направленное на извлечение атрибутов объекта и их перемещение в последний токен. Это нарушение приводит к тому, что модель не может корректно извлечь информацию, что может вызвать галлюцинации или отказ от ответа.

Влияние на внимание

Активация направлений, связанных с неизвестными объектами, снижает внимание к последнему токену объекта, даже если запрос касается известного объекта. Это подтверждает, что эти направления играют ключевую роль в регулировании внимания модели к объектам и, следовательно, в её способности извлекать и генерировать правильные атрибуты.

Рефлексия неопределённости

Мы также изучили, как модель отражает свою неопределённость относительно знания о конкретных объектах. Используя направления, выявленные SAEs, мы смогли манипулировать моделью, чтобы она выражала свою неуверенность или уверенность в знании о запросе, что указывает на наличие внутренних представлений о собственных знаниях модели.

Заключение

В данной работе мы использовали разреженные автоэнкодеры для идентификации направлений в пространстве представлений модели, которые кодируют её осведомлённость о собственных возможностях. Эти направления оказались причинно значимыми для поведения модели, включая её способность отказываться отвечать на вопросы или генерировать галлюцинации. Мы также показали, как эти направления влияют на механизмы внимания и извлечения фактов, а также на выражение неопределённости модели. Эти открытия способствуют лучшему пониманию поведения языковых моделей и открывают пути для улучшения их надёжности и снижения частоты галлюцинаций.

Статья на arxiv Оригинал pdf causal sparse representation

Ай Дайджест