Ай Дайджест - категория neurons

Как DPO снижает токсичность: Взгляд на внутренние механизмы

Алгоритмы тонкой настройки безопасности часто используются для доработки языковых моделей с целью уменьшения вредных результатов, однако точные внутренние механизмы, с помощью которых модели достигают этого, остаются неясными. В исследовании прямой оптимизации предпочтений (DPO) для снижения токсичности, текущие объяснения утверждают, что DPO действует, снижая активность наиболее токсичных нейронов MLP, чтобы научиться избегать токсичных областей в остаточном потоке. Тем не менее, после удаления наиболее токсичных нейронов и применения патчей активации, мы обнаружили, что это объяснение неполное. Проецируя изменения активации нейронов на зонд токсичности, мы установили, что только 31.8% снижения токсичности происходит за счет ослабления токсичных нейронов. Вместо этого, DPO снижает токсичность, накапливая эффекты по нескольким группам нейронов, как уменьшая выражение в токсичном направлении, так и стимулируя анти-токсичность в остаточном потоке. Более того, DPO вносит шумные корректировки в активацию нейронов, при этом многие нейроны фактически увеличивают токсичность. Это указывает на то, что DPO является процессом балансирования противоположных эффектов нейронов для достижения снижения токсичности.

2024-11-12fine-tuning neurons toxicity