Свежая выжимка ml и AI статей - каждый день
Интерпретация и контроль поведения фундаментальных моделей (ФМ) — это ключевые задачи для обеспечения их безопасности и надежности. В последнее время разреженные автоэнкодеры (SAE) выделяются как многообещающий инструмент для расшифровки сложных представлений ФМ, превращая их в более понятные и интерпретируемые признаки. Однако, даже самые широкие SAE, обученные на огромных объемах данных, могут уловить лишь часть концепций, встроенных в эти модели. Редкие или специфические концепции часто остаются невидимыми из-за их редкой активации, что создает значительные трудности для понимания и смягчения потенциальных рисков, связанных с ФМ.
В этой статье мы представляем специализированные разреженные автоэнкодеры (SSAE), новый подход, предназначенный для решения этой проблемы. Вместо попытки захватить все концепции, как это делается в текущих практиках SAE, мы предлагаем SSAE как метод, который позволяет эффективно извлекать редкие признаки, связанные с конкретными поддоменами. Концентрируясь на определенном поддомене, мы можем обучить SSAE на выявление признаков, представляющих редкие концепции, без необходимости увеличения до миллиардов признаков.
Гипотеза суперпозиции в ФМ предполагает, что ограниченное количество нейронов кодирует гораздо большее количество концепций, что приводит к сложным и перекрывающимся представлениям. SAE предлагают решение этой проблемы, обучаясь реконструировать представления ФМ на определенном слое с использованием разреженного набора признаков в более высокомерном пространстве. Это позволяет потенциально расшифровать суперпозицию признаков и выявить более интерпретируемые представления.
В SAE входное активационное представление (x \in \mathbb{R}^n) разлагается на разреженную линейную комбинацию признаковых направлений:
[ x \approx x_0 + \sum_{i=1}^M f_i(x) d_i ]
где (d_i) — это (M \gg n) признаковых направлений с единичной нормой, а (f_i(x) \geq 0) — соответствующие активации признаков для (x).
SSAE предназначены для изучения признаков, представляющих редкие концепции в конкретных поддоменах. Наш подход начинается с небольшого начального набора данных, содержащего либо конкретную концепцию, либо ограниченные данные из целевого поддомена (например, токсичность). Затем мы расширяем этот набор данных, используя стратегию высокой точности извлечения, которая использует начальные данные для идентификации и извлечения примеров, релевантных поддомену, из базового корпуса предобучения ФМ.
Для создания SSAE мы дообучаем предварительно обученный общий SAE (GSAE) на этом курированном поддоменном наборе данных. GSAE изначально обучен для реконструкции активаций на большом, общем наборе данных, что позволяет ему захватывать широкий спектр концепций. Дообучение на поддоменном наборе данных позволяет SAE специализироваться и изучать признаки, которые могут быть редкими в общем домене, но распространены в целевом поддомене.
Эффективность SSAE зависит от качества и релевантности выбранных данных для дообучения. Мы исследовали несколько стратегий выбора данных:
Разреженное извлечение: Использование метрик, таких как Okapi BM25, для ранжирования документов на основе релевантности запроса, учитывая частоту терминов, обратную частоту документов и длину документов.
Плотное извлечение: Использование моделей вроде Contriever для генерации семантически значимых вложений для запросов и документов, а затем извлечение документов, наиболее похожих на начальные концепции.
SAE TracIn: Адаптация метода TracIn для оценки влияния тренировочных примеров на модель, вычисляя скалярное произведение градиентов потерь относительно тренировочных данных и начального набора данных.
Дообучение с использованием стандартной эмпирической минимизации риска (ERM) склонно к приоритету изучения признаков для наиболее частых концепций в поддоменном наборе данных. Однако для многих приложений, таких как безопасность, захват редких концепций является критически важным. Эти редкие признаки могут представлять потенциальные риски или нарушения безопасности и часто упускаются из виду стандартным ERM, который фокусируется на минимизации среднего потери.
TERM предоставляет рамки для аппроксимации максимального риска, поощряя модель к изучению признаков, которые лучше представляют эти редкие концепции:
[ \tilde{L}(t; w) = \frac{1}{t} \log \left( \frac{1}{N} \sum_{i \in [N]} e^{t \cdot L_w(z_i)} \right) ]
где (L_w(z_i)) — это стандартная потеря SAE для точки данных (z_i) в мини-батче с (N) точками и параметрами SAE (w).
Мы начали с начального набора данных, состоящего из 9.2K токенов, выбранных из набора данных arXiv Physics. Используя различные методы извлечения, мы расширили этот набор до 13.9M токенов из OpenWebText (OWT). SSAE обучался дообучением GSAE в течение 1000 итераций на этом расширенном наборе данных.
TERM обученные SSAE демонстрируют улучшение в захвате редких концепций по сравнению с ERM обученными SSAE. Это улучшение можно наблюдать на графиках, показывающих распределение ошибок реконструкции для токенов, ранжированных по частоте, где TERM снижает ошибку реконструкции и ее дисперсию для редких токенов.
Мы использовали автоматизированную интерпретацию для оценки объяснимости признаков, обученных SSAE. Используя модель языкового моделирования, такую как Claude 3.5 Sonnet, мы генерировали объяснения для каждого признака на основе примеров, активирующих этот признак, и затем использовали эти объяснения для предсказания активаций на новых примерах. SSAE, обученные с использованием TERM, показали более высокие значения F1-скора, указывая на то, что их объяснения более эффективны в предсказании активации на новых примерах.
В этой работе мы представили SSAE как инструмент для интерпретации редких и специфических концепций в фундаментальных моделях. SSAE, обученные с использованием плотного извлечения и TERM, превосходят стандартные SAE в захвате концепций хвоста распределения и обеспечивают более интерпретируемые признаки. Дальнейшая работа может исследовать применение SSAE для целенаправленного удаления концепций и улучшения интерпретации и контроля в различных доменах, таких как безопасность ИИ, здравоохранение и справедливость.