Свежая выжимка ml и AI статей - каждый день
Современные генеративные модели (GMs) демонстрируют впечатляющие способности, но их использование вызывает вопросы о надежности, безопасности и потенциальном неправомерном использовании. Для решения этих проблем были разработаны методы, позволяющие управлять генерацией моделей через изменение их активаций. В этой статье мы представляем Activation Transport (AСT), новый подход, который использует теорию оптимального транспорта для управления активациями модели, предоставляя точный и интерпретируемый контроль над поведением модели.
Активации модели можно представить как многомерные тензоры, которые отражают состояние нейронных сетей в процессе обработки входных данных. AСT предлагает методику для транспортировки этих активаций из одного распределения в другое, что позволяет эффективно управлять поведением модели без значительных изменений в ее архитектуре или параметрах.
Оптимальный транспорт (OT) – это математическая теория, которая занимается нахождением наиболее эффективного способа перемещения массы из одного распределения в другое. В контексте AСT, мы используем OT для определения карты транспортировки, которая переносит активации из исходного распределения (например, токсичный язык) в целевое (например, нейтральный язык).
Линейный AСT (Linear-AСT) – это конкретная реализация AСT, где транспортировка активаций осуществляется с помощью линейных преобразований. Это упрощает вычисления и позволяет минимизировать вычислительные затраты. Линейная карта транспортировки определяется как:
[ T(a; A, B) = \omega a + \beta ]
где ( \omega ) и ( \beta ) – параметры, минимизирующие расстояние между активациями до и после транспортировки.
Для предотвращения выхода активаций за пределы распределения, наблюдаемого во время обучения, мы вводим понятие транспортной поддержки – диапазона значений, в пределах которого транспортировка активаций считается безопасной.
Учитывая каузальную связь между слоями модели, мы применяем транспортировку активаций последовательно, начиная с первого слоя и двигаясь к последующим, что позволяет учитывать влияние предыдущих слоев на последующие.
AСT позволяет плавно интерполировать между исходным и целевым распределениями активаций, используя параметр (\lambda):
[ T(a, \lambda) = (1 - \lambda)a + \lambda T(a) ]
где (\lambda) контролирует степень транспортировки, обеспечивая гибкость в управлении поведением модели.
Мы применили Linear-AСT к моделям Gemma2-2B и Llama3-8B для снижения токсичности генерируемого текста. Результаты показали, что Linear-AСT может снизить токсичность до 7,5 раз, сохраняя при этом минимальное влияние на другие метрики производительности модели.
Linear-AСT также демонстрирует способность индуцировать произвольные концепты в генерируемом тексте, что подтверждается экспериментами с различными концептами, такими как "футбол", "облако" и "цветок".
В экспериментах с моделями Stable Diffusion XL (SDXL) и FLUX, Linear-AСT показал эффективность в управлении стилем генерируемых изображений, позволяя плавно изменять уровень стилизации от минимального до полного.
Linear-AСT также успешно применяется для исключения нежелательных элементов из изображений, что демонстрирует его универсальность и эффективность в различных задачах.
AСT представляет собой мощный инструмент для точного и интерпретируемого управления поведением генеративных моделей. Его применение позволяет не только улучшить безопасность и надежность моделей, но и расширить их возможности по управлению стилем и содержанием генерируемого контента. В будущем мы планируем исследовать нелинейные карты транспортировки и совместные распределения активаций для дальнейшего улучшения этого подхода.