Разложение и интерпретация векторов управления: Можно ли использовать разреженные автоэнкодеры?

В веке быстрого развития языковых моделей (LLM) интерес к методам управления их поведением постоянно растет. Одним из таких методов является использование векторов управления (или активационного управления), которые позволяют изменять поведение модели без необходимости её дообучения. Эти векторы добавляются к внутренним активациям модели во время инференса, чтобы направить её в сторону желаемых характеристик, таких как корректность, безвредность или отказ от определенных действий.

Однако, несмотря на обнадеживающие эмпирические результаты, механизмы, лежащие в основе векторов управления, остаются плохо изученными. Интерпретация этих векторов через их разложение на более мелкие, понятные признаки может помочь объяснить, почему некоторые поведения легче управлять, чем другие, и почему комбинирование векторов управления часто не приводит к ожидаемым результатам.

Разреженные автоэнкодеры (SAEs)

Разреженные автоэнкодеры (Sparse Autoencoders, SAEs) представляют собой метод обучения словаря для разложения активаций модели на разреженные, неотрицательные линейные комбинации векторов, которые часто соответствуют интерпретируемым концепциям. Идея состоит в том, что векторы управления, существующие в том же пространстве, что и активации модели, могут быть выражены как комбинации признаков SAE.

Проблемы с прямым применением SAEs

Недавние исследования показали, что прямое применение SAEs для интерпретации векторов управления может давать неоднозначные результаты. Векторы, восстановленные с помощью SAEs, часто не сохраняют свойства управления исходных векторов. Это указывает на то, что разложение SAEs не захватывает существенные элементы векторов управления.

В данной статье мы исследуем две основные причины, по которым прямое применение SAEs дает вводящие в заблуждение разложения:

Векторы управления находятся вне распределения входных данных, для которых SAEs были разработаны.
Векторы управления могут иметь значимые отрицательные проекции в направлениях признаков SAEs, которые SAEs не предназначены для учета.

Векторы управления

Векторы управления — это векторные представления концепций, которые могут направлять поведение модели при добавлении к промежуточным активациям во время инференса. В нашем исследовании мы используем метод Contrastive Activation Addition (CAA) для создания векторов управления. Этот метод включает создание пар контрастных запросов с использованием вопросов с множественным выбором, где один запрос заканчивается ответом "A", а другой — "B". Разница между активациями модели для этих пар захватывает представление целевого поведения.

Извлечение векторов управления

Для извлечения вектора управления на заданном слое L, активации модели собираются из остаточного потока в позиции токена ответа ("A" или "B"). Затем для каждой пары контрастных запросов сравниваются активации, и вычисляется разница, формируя вектор разницы. Чтобы минимизировать эффекты смешения, конечный вектор управления v получается путем усреднения векторов разницы по всему набору пар запросов, процесс известен как mean difference:

[ v = \frac{1}{|X|} \sum_{x \in X} [a_L(x, y^+) - a_L(x, y^-)] ]

где (X) — множество всех вопросов, а (|X|) — его мощность.

Разреженные автоэнкодеры

SAEs обучаются разлагать активации модели на разреженные, неотрицательные линейные комбинации векторов, известные как признаки SAEs. Многие из этих признаков соответствуют интерпретируемым концепциям, что предоставляет инсайт в активации модели.

Прямое разложение векторов управления с помощью SAEs

Исследования показали, что прямое применение SAEs к векторам управления дает смешанные результаты. В некоторых случаях признаки, казалось бы, соответствующие управляемому поведению, не оказывают значимого влияния на результат. Интересно, что удаление таких, казалось бы, несущественных признаков иногда даже улучшает управление поведением модели.

Проблемы с прямым разложением

Векторы управления вне распределения

SAEs обучены для реконструкции активаций модели, которые систематически отличаются от векторов управления. Одним из проявлений этой проблемы является то, что векторы управления имеют значительно меньшие L2-нормы, чем активации модели. В результате, смещение энкодера SAEs оказывает непропорционально большое влияние на разложение, затмевая вклад от скалярных произведений между направлениями признаков SAEs и вектором управления.

Неотрицательные коэффициенты реконструкции

Если активации модели представляются как неотрицательные линейные комбинации векторов (как предполагается SAEs), то истинное разложение вектора управления, полученного из контрастных пар, должно включать как положительные, так и отрицательные коэффициенты реконструкции. Однако SAEs позволяют только неотрицательные коэффициенты, что приводит к вводящим в заблуждение интерпретациям при прямом применении к векторам управления.

Заключение

Наши результаты выявили две причины, по которым разложения SAEs векторов управления могут быть вводящими в заблуждение: проблемы с вне распределенными входными данными и невозможность SAEs представить отрицательные коэффициенты реконструкции. Это объясняет, почему предыдущие исследования наблюдали несущественные признаки в разложениях SAEs и почему реконструкции SAEs часто не сохраняли управляющие способности исходных векторов.

Для преодоления этих проблем предлагаются альтернативные методы, такие как градиентный поиск и тонкая настройка векторов задач с помощью SAEs, которые используют словарь признаков SAEs, но применяют альтернативные техники разреженного приближения для вычисления коэффициентов реконструкции. Эти подходы эффективно решают проблему вне распределенных данных, но все еще должны учитывать проблему значимых отрицательных проекций признаков.

Будущие исследования могут включать обучение векторов управления непосредственно в базисе SAEs, что позволит избежать проблем с распределением и отрицательными коэффициентами, а также оценку этих методов в сравнении с существующими подходами.

Статья на arxiv Оригинал pdf vectors autoencoders steering

Ай Дайджест