Ай Дайджест - категория projection

Разложение и интерпретация векторов управления: Можно ли использовать разреженные автоэнкодеры?

Векторы управления являются перспективным методом для контроля поведения крупных языковых моделей. Однако их внутренние механизмы остаются плохо понятыми. Хотя разреженные автокодировщики (SAEs) могут предложить потенциальный способ интерпретации векторов управления, недавние исследования показывают, что векторы, реконструированные с помощью SAEs, часто лишены управляющих свойств оригинальных векторов. В данной статье исследуется, почему прямое применение SAEs к векторам управления приводит к вводящим в заблуждение декомпозициям, выявляя две причины: (1) векторы управления находятся вне распределения входных данных, для которых SAEs были разработаны, и (2) векторы управления могут иметь значимые отрицательные проекции в направлениях признаков, которые SAEs не предназначены учитывать. Эти ограничения препятствуют прямому использованию SAEs для интерпретации векторов управления.

2024-11-14vectors autoencoders features

Как DPO снижает токсичность: Взгляд на внутренние механизмы

Алгоритмы тонкой настройки безопасности часто используются для доработки языковых моделей с целью уменьшения вредных результатов, однако точные внутренние механизмы, с помощью которых модели достигают этого, остаются неясными. В исследовании прямой оптимизации предпочтений (DPO) для снижения токсичности, текущие объяснения утверждают, что DPO действует, снижая активность наиболее токсичных нейронов MLP, чтобы научиться избегать токсичных областей в остаточном потоке. Тем не менее, после удаления наиболее токсичных нейронов и применения патчей активации, мы обнаружили, что это объяснение неполное. Проецируя изменения активации нейронов на зонд токсичности, мы установили, что только 31.8% снижения токсичности происходит за счет ослабления токсичных нейронов. Вместо этого, DPO снижает токсичность, накапливая эффекты по нескольким группам нейронов, как уменьшая выражение в токсичном направлении, так и стимулируя анти-токсичность в остаточном потоке. Более того, DPO вносит шумные корректировки в активацию нейронов, при этом многие нейроны фактически увеличивают токсичность. Это указывает на то, что DPO является процессом балансирования противоположных эффектов нейронов для достижения снижения токсичности.

2024-11-12projection neurons dpo