Ай Дайджест - категория truthfulness

Контроль языковых и диффузионных моделей с помощью транспортировки активаций

Увеличивающиеся возможности больших генеративных моделей и их всё более широкое внедрение вызывают опасения относительно их надежности, безопасности и потенциального злоупотребления. Для решения этих проблем недавние исследования предложили управлять генерацией моделей путем направления активаций модели, чтобы эффективно вызывать или предотвращать появление концепций или поведения в генерируемом выходе. В данной статье мы представляем Транспорт Активаций (AcT), общий фреймворк для управления активациями, руководствуясь теорией оптимального транспорта, который обобщает множество предыдущих работ по направлению активаций. AcT не зависит от модальности и обеспечивает точный контроль над поведением модели с минимальными вычислительными накладными расходами, при этом минимально влияя на способности модели. Мы экспериментально демонстрируем эффективность и универсальность нашего подхода, решая ключевые проблемы в больших языковых моделях (LLMs) и моделях диффузии текста в изображения (T2Is). Для LLMs мы показываем, что AcT может эффективно снижать токсичность, вызывать произвольные концепции и повышать их правдивость. В T2Is мы показываем, как AcT позволяет осуществлять точный контроль стиля и отрицание концепций.

2024-11-06diffusion activation toxicity

Введение

Мы представляем технологию "Мульти-экспертное Стимулирование", новое улучшение метода ExpertPrompting (Xu и соавт., 2023), разработанное для улучшения генерации больших языковых моделей (LLM). В частности, она направляет LLM на выполнение входной инструкции путем имитации нескольких экспертов, агрегации их ответов и выбора лучшего из индивидуальных и агрегированных ответов. Этот процесс выполняется в одной цепочке рассуждений через наши семь тщательно разработанных подзадач, основанных на Методе Номинальной Группы (Ven и Delbecq, 1974), хорошо зарекомендовавшей себя структуре принятия решений. Наши оценки показывают, что Мульти-экспертное Стимулирование значительно превосходит ExpertPrompting и сопоставимые базовые модели в улучшении правдивости, фактичности, информативности и полезности ответов, одновременно снижая токсичность и обидность. Оно также достигает рекордной правдивости, превосходя лучший базовый показатель на 8.69% с использованием ChatGPT. Мульти-экспертное Стимулирование является эффективным, объяснимым и легко адаптируемым к различным сценариям, исключая необходимость ручного создания стимулов.

2024-11-05subtasks truthfulness aggregation