Разложение и интерпретация векторов управления: Можно ли использовать разреженные автоэнкодеры?
Векторы управления являются перспективным методом для контроля поведения крупных языковых моделей. Однако их внутренние механизмы остаются плохо понятыми. Хотя разреженные автокодировщики (SAEs) могут предложить потенциальный способ интерпретации векторов управления, недавние исследования показывают, что векторы, реконструированные с помощью SAEs, часто лишены управляющих свойств оригинальных векторов. В данной статье исследуется, почему прямое применение SAEs к векторам управления приводит к вводящим в заблуждение декомпозициям, выявляя две причины: (1) векторы управления находятся вне распределения входных данных, для которых SAEs были разработаны, и (2) векторы управления могут иметь значимые отрицательные проекции в направлениях признаков, которые SAEs не предназначены учитывать. Эти ограничения препятствуют прямому использованию SAEs для интерпретации векторов управления.