Ай Дайджест - категория relu

Полиномиальные составные активации: Развязывание динамики крупных языковых моделей

Трансформеры нашли широкое применение во многих областях благодаря своим мощным способностям к адаптации. Этот успех частично обусловлен их врожденной нелинейностью. Таким образом, помимо функции ReLU, используемой в оригинальной архитектуре трансформера, исследователи исследовали альтернативные модули, такие как GeLU и SwishGLU, для усиления нелинейности и, следовательно, увеличения представительской способности. В данной статье мы предлагаем новую категорию активационных функций на основе полиномиальных композиций (PolyCom), разработанных для оптимизации динамики трансформеров. Теоретически мы предоставляем полный математический анализ PolyCom, подчеркивая её улучшенную выразительность и эффективность по сравнению с другими активационными функциями. Особо отмечено, что сети, включающие PolyCom, достигают оптимальной скорости аппроксимации, что указывает на то, что сети PolyCom требуют минимального количества параметров для аппроксимации общих гладких функций в пространствах Соболева. Мы проводим эмпирические эксперименты на конфигурациях предварительного обучения крупных языковых моделей (LLMs), включая как плотные, так и разреженные архитектуры. Заменяя традиционные активационные функции на PolyCom, мы позволяем LLM захватывать взаимодействия более высокого порядка в данных, что улучшает показатели производительности в плане точности и скорости сходимости. Обширные экспериментальные результаты демонстрируют эффективность нашего метода, показывая существенные улучшения по сравнению с другими активационными функциями. Код доступен по адресу https://github.com/BryceZhuo/PolyCom.

2024-11-07activation llms approximation

Законы разреженности активации: К большим языковым моделям с большей разреженностью активации

Спарсность активации указывает на наличие значительного количества слабо вносящих вклад элементов в выходах активации, которые можно устранить, что полезно для многих важных приложений, связанных с крупными языковыми моделями (LLMs). Хотя поощрение большей спарсности активации в LLMs заслуживает глубоких исследований, существующие работы не обладают всесторонними и количественными исследованиями корреляции между спарсностью активации и потенциально влиятельными факторами. В данной статье мы представляем всестороннее исследование количественных масштабируемых свойств и влиятельных факторов спарсности активации в декодер-ориентированных трансформерных LLMs. В частности, мы предлагаем метрику спарсности активации PPL-p%, которая является точной и учитывающей производительность, и применима к любой функции активации. Проведя обширные эксперименты, мы обнаружили несколько важных явлений. Во-первых, различные функции активации показывают сопоставимую производительность, но противоположные тенденции спарсности во время обучения. Коэффициент активации (т.е., 1 минус коэффициент спарсности) эволюционирует как сходящаяся возрастающая степенная зависимость и убывающая логарифмическая степенная зависимость от объема обучающих данных для LLMs с активацией SiLU и ReLU соответственно. Это показывает, что ReLU более эффективен как функция активации по сравнению с SiLU и может использовать больше данных для улучшения спарсности активации. Во-вторых, коэффициент активации линейно увеличивается с отношением ширины к глубине до определенной точки узкого места, что указывает на потенциальное преимущество более глубокой архитектуры при фиксированном масштабе параметров. Наконец, при схожих отношениях ширины и глубины мы удивительно обнаружили, что предельное значение спарсности активации слабо зависит от масштаба параметров, т.е. активационные паттерны в LLM не чувствительны к масштабу параметров. Эти эмпирические законы для LLMs с большей спарсностью активации имеют важные последствия для повышения эффективности и интерпретируемости LLMs.

2024-11-05silu sparsity transformer