Свежая выжимка ml и AI статей - каждый день
Трансформеры, с момента их введения в 2017 году, кардинально изменили ландшафт глубокого обучения, особенно в области обработки естественного языка, компьютерного зрения и других областях. Их успех во многом обусловлен способностью улавливать сложные взаимосвязи в данных благодаря механизму внимания. Однако, несмотря на их эффективность, есть пространство для улучшения, в частности, в выборе функций активации.
Функция активации играет ключевую роль в определении выхода каждого нейрона в нейронной сети. Традиционно использовались простые нелинейные функции, такие как ReLU и её варианты, из-за их вычислительной эффективности и простоты реализации. Но эти функции ограничены в способности моделировать сложные, высокоуровневые взаимодействия в данных, что может быть особенно ограничивающим в архитектуре трансформеров, где умение улавливать тонкие и сложные зависимости критически важно.
В данной статье мы представляем новую категорию полиномиальных составных активаций (PolyCom), специально разработанных для улучшения производительности трансформеров. В отличие от традиционных активаций, которые в основном линейны или кусочно-линейны, полиномиальные составные активации способствуют моделированию более сложных паттернов в данных, тем самым увеличивая выразительность модели и позволяя ей улавливать высокоуровневые взаимодействия, которые могут быть упущены другими методами.
Мы демонстрируем, что сети, использующие PolyCom, обладают улучшенной выразительностью и эффективностью по сравнению с другими активационными функциями. Экспериментально мы показываем, что замена традиционных активаций на PolyCom в крупных языковых моделях (LLMs) позволяет улавливать более сложные взаимодействия в данных, улучшая метрики производительности в терминах точности и скорости сходимости.
PolyCom представляет собой новый класс активационных функций, которые являются составными из полиномиальных и других типов функций. Мы рассматриваем два подхода к композиции:
где ( r \in \mathbb{N} ) обозначает порядок PolyCom, ( \rho ) - произвольная функция, такая как ReLU, PReLU, Sigmoid, SiLU или нормализация. Ключевое различие между двумя подходами заключается в том, применяется ли функция до или после операции возведения в степень. Теоретически, оба подхода имеют эквивалентную выразительность, если ( \rho ) является нелинейной функцией.
Архитектура трансформеров включает в себя два чередующихся модуля: Multi-Head Attention (MHA) и позиционно-зависимые Feed-Forward Networks (FNN). Активационные функции в основном влияют на производительность слоев FNN. Мы формализуем общий парадигму FNN как:
[ FFN_\rho(x) = \rho(xW_1)W_2 ]
где ( \rho ) представляет активационную функцию, такую как ReLU, GeLU, PolyReLU или PolyNorm. Заменяя традиционные активации на наши предложенные варианты PolyCom, мы стремимся увеличить емкость и производительность модели.
Мы показываем, что PolyReLU обладает более сильными способностями аппроксимации с меньшим количеством обучаемых параметров по сравнению с ReLU и другими полиномиальными активациями.
Лемма 1: ReLU, ReLU² и полиномиальная активация могут быть представлены PolyReLU.
Теорема 1: Любая ReLU сеть может быть точно представлена PolyReLU сетью того же размера.
Мы также рассматриваем обратную задачу, где показываем, что PolyReLU активации могут быть аппроксимированы сетями с использованием ReLU, но с значительно большим числом параметров.
Лемма 2: Для данной активации PolyReLU существует ReLU сеть, которая может аппроксимировать её с заданной погрешностью.
Теорема 2: Для любой PolyReLU сети существует ReLU сеть, которая может аппроксимировать её с заданной точностью, но с большим количеством параметров.
Мы исследуем способность PolyReLU сетей аппроксимировать функции в пространствах Соболева, показывая, что они достигают оптимальной скорости аппроксимации.
Теорема 3: PolyReLU сети могут аппроксимировать любую функцию в пространстве Соболева с заданной ошибкой, требуя минимального количества параметров.
Мы оценили PolyCom на двух типах моделей: плотной модели с 1B параметрами и модели Mixture of Experts (MoE) с 1B активных параметров и 7B общих параметров. Оценка проводилась на различных наборах данных и бенчмарках, включая ARC-Easy, ARC-Challenge, HellaSwag, PIQA, SciQ и другие.
Плотная модель с использованием PolyReLU и PolyNorm показала более низкую тренировочную ошибку и валидационную перплексию по сравнению с моделями, использующими другие активации. Также наблюдалось улучшение в задачах на валидации.
Модели MoE с PolyNorm также продемонстрировали более быструю сходимость и лучшую производительность на валидационных наборах данных по сравнению с моделями, использующими SwiGLU.
Мы провели анализ различных порядков PolyCom, различных полиномиальных композиций и вариантов ReLU, а также изучили ранг весов и сходство между слоями, чтобы понять, как PolyCom улучшает производительность моделей.
В данной статье мы представили и обосновали использование полиномиальных составных активаций (PolyCom) в трансформерных моделях. Эксперименты показали, что PolyCom значительно улучшает точность и скорость сходимости моделей, позволяя им улавливать более сложные взаимодействия в данных. Эти результаты подчеркивают потенциал полиномиальных активаций для улучшения трансформеров и открывают новые направления исследований в области глубокого обучения.