Полиномиальные составные активации: Развязывание динамики крупных языковых моделей

Трансформеры, с момента их введения в 2017 году, кардинально изменили ландшафт глубокого обучения, особенно в области обработки естественного языка, компьютерного зрения и других областях. Их успех во многом обусловлен способностью улавливать сложные взаимосвязи в данных благодаря механизму внимания. Однако, несмотря на их эффективность, есть пространство для улучшения, в частности, в выборе функций активации.

Функция активации играет ключевую роль в определении выхода каждого нейрона в нейронной сети. Традиционно использовались простые нелинейные функции, такие как ReLU и её варианты, из-за их вычислительной эффективности и простоты реализации. Но эти функции ограничены в способности моделировать сложные, высокоуровневые взаимодействия в данных, что может быть особенно ограничивающим в архитектуре трансформеров, где умение улавливать тонкие и сложные зависимости критически важно.

В данной статье мы представляем новую категорию полиномиальных составных активаций (PolyCom), специально разработанных для улучшения производительности трансформеров. В отличие от традиционных активаций, которые в основном линейны или кусочно-линейны, полиномиальные составные активации способствуют моделированию более сложных паттернов в данных, тем самым увеличивая выразительность модели и позволяя ей улавливать высокоуровневые взаимодействия, которые могут быть упущены другими методами.

Мы демонстрируем, что сети, использующие PolyCom, обладают улучшенной выразительностью и эффективностью по сравнению с другими активационными функциями. Экспериментально мы показываем, что замена традиционных активаций на PolyCom в крупных языковых моделях (LLMs) позволяет улавливать более сложные взаимодействия в данных, улучшая метрики производительности в терминах точности и скорости сходимости.

Полиномиальные составные активации

Математическая формулировка

PolyCom представляет собой новый класс активационных функций, которые являются составными из полиномиальных и других типов функций. Мы рассматриваем два подхода к композиции:

Тип I: ( x \rightarrow \sum_{i=0}^{r} a_i \rho_i(x) )
Тип II: ( x \rightarrow \sum_{i=0}^{r} a_i \rho(x^i) )

где ( r \in \mathbb{N} ) обозначает порядок PolyCom, ( \rho ) - произвольная функция, такая как ReLU, PReLU, Sigmoid, SiLU или нормализация. Ключевое различие между двумя подходами заключается в том, применяется ли функция до или после операции возведения в степень. Теоретически, оба подхода имеют эквивалентную выразительность, если ( \rho ) является нелинейной функцией.

Интеграция в архитектуру трансформеров

Архитектура трансформеров включает в себя два чередующихся модуля: Multi-Head Attention (MHA) и позиционно-зависимые Feed-Forward Networks (FNN). Активационные функции в основном влияют на производительность слоев FNN. Мы формализуем общий парадигму FNN как:

[ FFN_\rho(x) = \rho(xW_1)W_2 ]

где ( \rho ) представляет активационную функцию, такую как ReLU, GeLU, PolyReLU или PolyNorm. Заменяя традиционные активации на наши предложенные варианты PolyCom, мы стремимся увеличить емкость и производительность модели.

Примеры PolyCom

PolyReLU: Это расширение ReLU, где ( \text{PolyReLU}(x) = \sum_{i=0}^{r} a_i \text{ReLU}^i(x) ).
PolyNorm: Нормализует степени для обеспечения согласованных величин между термами: ( \text{PolyNorm}(x) = \sum_{i=0}^{r} a_i \frac{x^i}{||x^i||_2} ).

Теоретический анализ

Аппроксимация ReLU сетей PolyReLU

Мы показываем, что PolyReLU обладает более сильными способностями аппроксимации с меньшим количеством обучаемых параметров по сравнению с ReLU и другими полиномиальными активациями.

Лемма 1: ReLU, ReLU² и полиномиальная активация могут быть представлены PolyReLU.

Теорема 1: Любая ReLU сеть может быть точно представлена PolyReLU сетью того же размера.

Аппроксимация PolyReLU сетей ReLU сетями

Мы также рассматриваем обратную задачу, где показываем, что PolyReLU активации могут быть аппроксимированы сетями с использованием ReLU, но с значительно большим числом параметров.

Лемма 2: Для данной активации PolyReLU существует ReLU сеть, которая может аппроксимировать её с заданной погрешностью.

Теорема 2: Для любой PolyReLU сети существует ReLU сеть, которая может аппроксимировать её с заданной точностью, но с большим количеством параметров.

Аппроксимация общих гладких функций

Мы исследуем способность PolyReLU сетей аппроксимировать функции в пространствах Соболева, показывая, что они достигают оптимальной скорости аппроксимации.

Теорема 3: PolyReLU сети могут аппроксимировать любую функцию в пространстве Соболева с заданной ошибкой, требуя минимального количества параметров.

Эксперименты

Настройка

Мы оценили PolyCom на двух типах моделей: плотной модели с 1B параметрами и модели Mixture of Experts (MoE) с 1B активных параметров и 7B общих параметров. Оценка проводилась на различных наборах данных и бенчмарках, включая ARC-Easy, ARC-Challenge, HellaSwag, PIQA, SciQ и другие.

Результаты на плотной модели

Плотная модель с использованием PolyReLU и PolyNorm показала более низкую тренировочную ошибку и валидационную перплексию по сравнению с моделями, использующими другие активации. Также наблюдалось улучшение в задачах на валидации.

Результаты на модели MoE

Модели MoE с PolyNorm также продемонстрировали более быструю сходимость и лучшую производительность на валидационных наборах данных по сравнению с моделями, использующими SwiGLU.

Аберрации и анализ

Мы провели анализ различных порядков PolyCom, различных полиномиальных композиций и вариантов ReLU, а также изучили ранг весов и сходство между слоями, чтобы понять, как PolyCom улучшает производительность моделей.

Заключение

В данной статье мы представили и обосновали использование полиномиальных составных активаций (PolyCom) в трансформерных моделях. Эксперименты показали, что PolyCom значительно улучшает точность и скорость сходимости моделей, позволяя им улавливать более сложные взаимодействия в данных. Эти результаты подчеркивают потенциал полиномиальных активаций для улучшения трансформеров и открывают новые направления исследований в области глубокого обучения.

Статья на arxiv Оригинал pdf transformer activation approximation

Ай Дайджест