Контроль языковых и диффузионных моделей с помощью транспортировки активаций
Увеличивающиеся возможности больших генеративных моделей и их всё более широкое внедрение вызывают опасения относительно их надежности, безопасности и потенциального злоупотребления. Для решения этих проблем недавние исследования предложили управлять генерацией моделей путем направления активаций модели, чтобы эффективно вызывать или предотвращать появление концепций или поведения в генерируемом выходе. В данной статье мы представляем Транспорт Активаций (AcT), общий фреймворк для управления активациями, руководствуясь теорией оптимального транспорта, который обобщает множество предыдущих работ по направлению активаций. AcT не зависит от модальности и обеспечивает точный контроль над поведением модели с минимальными вычислительными накладными расходами, при этом минимально влияя на способности модели. Мы экспериментально демонстрируем эффективность и универсальность нашего подхода, решая ключевые проблемы в больших языковых моделях (LLMs) и моделях диффузии текста в изображения (T2Is). Для LLMs мы показываем, что AcT может эффективно снижать токсичность, вызывать произвольные концепции и повышать их правдивость. В T2Is мы показываем, как AcT позволяет осуществлять точный контроль стиля и отрицание концепций.