Как DPO снижает токсичность: Взгляд на внутренние механизмы

В современном мире, где искусственный интеллект (AI) и большие языковые модели (LLM) играют все более важную роль, проблема токсичности в генерируемых текстах становится особенно актуальной. Модели, такие как GPT-2, могут создавать содержание, которое не только полезно, но и потенциально вредно, если не контролировать их выходные данные. Одним из методов, используемых для снижения токсичности, является Direct Preference Optimization (DPO). Однако, несмотря на его эффективность, механизмы, лежащие в основе этого процесса, долгое время оставались не полностью понятыми.

Генеративные модели, такие как LLM, обладают огромным потенциалом для создания текстов, но они также могут воспроизводить нежелательные поведения, включая токсичность, предвзятость или галлюцинации. Для борьбы с этими проблемами были разработаны алгоритмы тонкой настройки безопасности, такие как Proximal Policy Optimization (PPO) и DPO. Эти алгоритмы минимально изменяют параметры предварительно обученных моделей, чтобы подавить нежелательные выводы, но как именно они это делают, оставалось загадкой.

Одно из предположений, выдвинутое в исследовании Ли и его коллегами, заключалось в том, что DPO снижает токсичность путем подавления активаций наиболее токсичных нейронов MLP, создавая смещение, чтобы избегать токсичных областей в резидуальном потоке. Наша работа проверяет это предположение, используя методы абляции и активационного патча, чтобы понять, как DPO действительно работает.

Механизмы тонкой настройки алгоритмов

Перед тем как углубиться в детали нашего исследования, важно понять, как алгоритмы тонкой настройки изменяют поведение предварительно обученных моделей. Некоторые исследования показали, что модели развивают "обертки" в своих последних слоях, которые представляют собой небольшие локализованные изменения, оптимизирующие модель для конкретных задач. Другие работы указывают на то, что безопасная тонкая настройка работает, минимально трансформируя веса MLP, чтобы проецировать небезопасные входные данные в нулевое пространство весов.

Экспериментальная установка

Для тестирования гипотезы Ли и его коллег мы воспроизвели их экспериментальную установку, используя ту же модель (GPT-2 medium), токсичные запросы, методы извлечения проб и метрики оценки. Мы сфокусировались на GPT-2 medium, который имеет 355 миллионов параметров, 24 слоя, размер резидуального потока 1024 и размер скрытого слоя MLP 4096. Мы также использовали версию GPT-2 medium, настроенную с помощью DPO, для снижения токсичности.

Отслеживание снижения токсичности по нейронам

Абляция токсичных нейронов

Чтобы проверить утверждение о том, что DPO работает за счет подавления наиболее токсичных нейронов, мы аблитировали активации до 2000 токсичных нейронов, чтобы полностью устранить эти области и оценить, воспроизводит ли это эффект DPO. Мы также применили активационное патчение, чтобы выровнять активации токсичных нейронов с уровнями после DPO.

Результаты показали, что хотя абляция токсичных нейронов уменьшает токсичность, это снижение не достигает уровня, достигнутого DPO. Более того, абляция более чем 1000 токсичных нейронов значительно увеличивает перплексию и ухудшает общее качество языка. Это указывает на то, что подавление токсичных нейронов не является единственным механизмом, через который DPO снижает токсичность.

Вычисление токсичности нейронов через проекции

Мы следовали подходу Ли и его коллег, предполагая, что токсичный проб захватывает направление агрегированной токсичности в GPT-2 medium. Мы отслеживали снижение токсичности по нейронам, проецируя выходы каждого слоя MLP на нормализованное направление пробы. Эти проекции усреднялись по 1199 запросам и 20 сгенерированным токенам.

Анализ показал, что DPO действительно снижает токсичность, но не только за счет подавления токсичных нейронов. Вместо этого, DPO создает накопительный эффект через несколько групп нейронов, как снижая запись в токсичном направлении, так и способствуя анти-токсичности в резидуальном потоке.

Идентификация групп нейронов для снижения токсичности

Мы идентифицировали четыре группы нейронов, которые вносят вклад в общее снижение токсичности:

TP-: токсичные нейроны, активирующиеся менее положительно.
AN-: анти-токсичные нейроны, активирующиеся менее отрицательно.
TN+: токсичные нейроны, активирующиеся более отрицательно.
AP+: анти-токсичные нейроны, активирующиеся более положительно.

Эти группы показали, что DPO не только подавляет токсичность, но и активно продвигает анти-токсичность. Наиболее значимый вклад в снижение токсичности вносят группы TP- и AN-, которые вместе составляют 69.1% общего снижения, в то время как оставшиеся 30.9% приходятся на продвижение анти-токсичности.

Активационное патчение

Чтобы подтвердить влияние этих групп на реальные уровни токсичности, мы применили активационное патчение к каждой группе на предварительно обученной модели, корректируя их активации до уровней после DPO. Результаты показали, что патчение каждой из трех основных групп нейронов в отдельности снижает токсичность, но только патчение всех четырех групп вместе превосходит эффект DPO.

Заключение

Наши исследования показывают, что DPO не просто подавляет токсичные нейроны, но и вносит тонкие изменения в активации нейронов, создавая баланс между противоположными эффектами для достижения общего снижения токсичности. Это понимание механизмов DPO может мотивировать разработку целенаправленных вмешательств для репликации его эффектов, а также открывает новые пути для будущих исследований в области безопасности и надежности языковых моделей.

Статья на arxiv Оригинал pdf activation toxicity fine-tuning

Ай Дайджест