Ай Дайджест - категория toxicity

Maya: Многоязычная мультимодальная модель, настроенная на инструкции

Быстрое развитие крупных моделей «Видение-Язык» (VLM) привело к впечатляющим результатам по академическим бенчмаркам, в первую очередь на широко распространенных языках. Однако остаются значительные пробелы в способности современных VLM справляться с языками с низкими ресурсами и разнообразными культурными контекстами, в значительной степени из-за нехватки качественных, разнообразных и проверенных на безопасность данных. В результате эти модели часто испытывают трудности с пониманием языков с низкими ресурсами и культурных нюансов без токсичности. Чтобы устранить эти ограничения, мы представляем Maya — открытую многомодальную многоязычную модель. Наши вклад заключаются в трех аспектах: 1) многоязычный набор данных для предобучения изображений и текста на восьми языках, основанный на наборе данных предобучения LLaVA; 2) тщательный анализ токсичности внутри набора данных LLaVA, за которым следует создание новой версии без токсичности на восьми языках; и 3) многоязычная модель для работы с изображениями и текстом, поддерживающая эти языки, что позволяет улучшить культурное и лингвистическое понимание в задачах по визуальному восприятию языка. Код доступен по адресу https://github.com/nahidalam/maya.

2024-12-10data toxicity pretraining

Как DPO снижает токсичность: Взгляд на внутренние механизмы

Алгоритмы тонкой настройки безопасности часто используются для доработки языковых моделей с целью уменьшения вредных результатов, однако точные внутренние механизмы, с помощью которых модели достигают этого, остаются неясными. В исследовании прямой оптимизации предпочтений (DPO) для снижения токсичности, текущие объяснения утверждают, что DPO действует, снижая активность наиболее токсичных нейронов MLP, чтобы научиться избегать токсичных областей в остаточном потоке. Тем не менее, после удаления наиболее токсичных нейронов и применения патчей активации, мы обнаружили, что это объяснение неполное. Проецируя изменения активации нейронов на зонд токсичности, мы установили, что только 31.8% снижения токсичности происходит за счет ослабления токсичных нейронов. Вместо этого, DPO снижает токсичность, накапливая эффекты по нескольким группам нейронов, как уменьшая выражение в токсичном направлении, так и стимулируя анти-токсичность в остаточном потоке. Более того, DPO вносит шумные корректировки в активацию нейронов, при этом многие нейроны фактически увеличивают токсичность. Это указывает на то, что DPO является процессом балансирования противоположных эффектов нейронов для достижения снижения токсичности.

2024-11-12projection activation fine-tuning

Контроль языковых и диффузионных моделей с помощью транспортировки активаций

Увеличивающиеся возможности больших генеративных моделей и их всё более широкое внедрение вызывают опасения относительно их надежности, безопасности и потенциального злоупотребления. Для решения этих проблем недавние исследования предложили управлять генерацией моделей путем направления активаций модели, чтобы эффективно вызывать или предотвращать появление концепций или поведения в генерируемом выходе. В данной статье мы представляем Транспорт Активаций (AcT), общий фреймворк для управления активациями, руководствуясь теорией оптимального транспорта, который обобщает множество предыдущих работ по направлению активаций. AcT не зависит от модальности и обеспечивает точный контроль над поведением модели с минимальными вычислительными накладными расходами, при этом минимально влияя на способности модели. Мы экспериментально демонстрируем эффективность и универсальность нашего подхода, решая ключевые проблемы в больших языковых моделях (LLMs) и моделях диффузии текста в изображения (T2Is). Для LLMs мы показываем, что AcT может эффективно снижать токсичность, вызывать произвольные концепции и повышать их правдивость. В T2Is мы показываем, как AcT позволяет осуществлять точный контроль стиля и отрицание концепций.

2024-11-06versatility steering control