Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "activation"

Как DPO снижает токсичность: Взгляд на внутренние механизмы

Алгоритмы тонкой настройки безопасности часто используются для доработки языковых моделей с целью уменьшения вредных результатов, однако точные внутренние механизмы, с помощью которых модели достигают этого, остаются неясными. В исследовании прямой оптимизации предпочтений (DPO) для снижения токсичности, текущие объяснения утверждают, что DPO действует, снижая активность наиболее токсичных нейронов MLP, чтобы научиться избегать токсичных областей в остаточном потоке. Тем не менее, после удаления наиболее токсичных нейронов и применения патчей активации, мы обнаружили, что это объяснение неполное. Проецируя изменения активации нейронов на зонд токсичности, мы установили, что только 31.8% снижения токсичности происходит за счет ослабления токсичных нейронов. Вместо этого, DPO снижает токсичность, накапливая эффекты по нескольким группам нейронов, как уменьшая выражение в токсичном направлении, так и стимулируя анти-токсичность в остаточном потоке. Более того, DPO вносит шумные корректировки в активацию нейронов, при этом многие нейроны фактически увеличивают токсичность. Это указывает на то, что DPO является процессом балансирования противоположных эффектов нейронов для достижения снижения токсичности.

Полиномиальные составные активации: Развязывание динамики крупных языковых моделей

Трансформеры нашли широкое применение во многих областях благодаря своим мощным способностям к адаптации. Этот успех частично обусловлен их врожденной нелинейностью. Таким образом, помимо функции ReLU, используемой в оригинальной архитектуре трансформера, исследователи исследовали альтернативные модули, такие как GeLU и SwishGLU, для усиления нелинейности и, следовательно, увеличения представительской способности. В данной статье мы предлагаем новую категорию активационных функций на основе полиномиальных композиций (PolyCom), разработанных для оптимизации динамики трансформеров. Теоретически мы предоставляем полный математический анализ PolyCom, подчеркивая её улучшенную выразительность и эффективность по сравнению с другими активационными функциями. Особо отмечено, что сети, включающие PolyCom, достигают оптимальной скорости аппроксимации, что указывает на то, что сети PolyCom требуют минимального количества параметров для аппроксимации общих гладких функций в пространствах Соболева. Мы проводим эмпирические эксперименты на конфигурациях предварительного обучения крупных языковых моделей (LLMs), включая как плотные, так и разреженные архитектуры. Заменяя традиционные активационные функции на PolyCom, мы позволяем LLM захватывать взаимодействия более высокого порядка в данных, что улучшает показатели производительности в плане точности и скорости сходимости. Обширные экспериментальные результаты демонстрируют эффективность нашего метода, показывая существенные улучшения по сравнению с другими активационными функциями. Код доступен по адресу https://github.com/BryceZhuo/PolyCom.

Контроль языковых и диффузионных моделей с помощью транспортировки активаций

Увеличивающиеся возможности больших генеративных моделей и их всё более широкое внедрение вызывают опасения относительно их надежности, безопасности и потенциального злоупотребления. Для решения этих проблем недавние исследования предложили управлять генерацией моделей путем направления активаций модели, чтобы эффективно вызывать или предотвращать появление концепций или поведения в генерируемом выходе. В данной статье мы представляем Транспорт Активаций (AcT), общий фреймворк для управления активациями, руководствуясь теорией оптимального транспорта, который обобщает множество предыдущих работ по направлению активаций. AcT не зависит от модальности и обеспечивает точный контроль над поведением модели с минимальными вычислительными накладными расходами, при этом минимально влияя на способности модели. Мы экспериментально демонстрируем эффективность и универсальность нашего подхода, решая ключевые проблемы в больших языковых моделях (LLMs) и моделях диффузии текста в изображения (T2Is). Для LLMs мы показываем, что AcT может эффективно снижать токсичность, вызывать произвольные концепции и повышать их правдивость. В T2Is мы показываем, как AcT позволяет осуществлять точный контроль стиля и отрицание концепций.

Законы разреженности активации: К большим языковым моделям с большей разреженностью активации

Спарсность активации указывает на наличие значительного количества слабо вносящих вклад элементов в выходах активации, которые можно устранить, что полезно для многих важных приложений, связанных с крупными языковыми моделями (LLMs). Хотя поощрение большей спарсности активации в LLMs заслуживает глубоких исследований, существующие работы не обладают всесторонними и количественными исследованиями корреляции между спарсностью активации и потенциально влиятельными факторами. В данной статье мы представляем всестороннее исследование количественных масштабируемых свойств и влиятельных факторов спарсности активации в декодер-ориентированных трансформерных LLMs. В частности, мы предлагаем метрику спарсности активации PPL-p%, которая является точной и учитывающей производительность, и применима к любой функции активации. Проведя обширные эксперименты, мы обнаружили несколько важных явлений. Во-первых, различные функции активации показывают сопоставимую производительность, но противоположные тенденции спарсности во время обучения. Коэффициент активации (т.е., 1 минус коэффициент спарсности) эволюционирует как сходящаяся возрастающая степенная зависимость и убывающая логарифмическая степенная зависимость от объема обучающих данных для LLMs с активацией SiLU и ReLU соответственно. Это показывает, что ReLU более эффективен как функция активации по сравнению с SiLU и может использовать больше данных для улучшения спарсности активации. Во-вторых, коэффициент активации линейно увеличивается с отношением ширины к глубине до определенной точки узкого места, что указывает на потенциальное преимущество более глубокой архитектуры при фиксированном масштабе параметров. Наконец, при схожих отношениях ширины и глубины мы удивительно обнаружили, что предельное значение спарсности активации слабо зависит от масштаба параметров, т.е. активационные паттерны в LLM не чувствительны к масштабу параметров. Эти эмпирические законы для LLMs с большей спарсностью активации имеют важные последствия для повышения эффективности и интерпретируемости LLMs.