МАРС: Развязывание силы снижения дисперсии для обучения больших моделей

В мире глубокого обучения и искусственного интеллекта (AI) постоянно ведется поиск новых методов для ускорения процесса обучения нейронных сетей, особенно когда речь идет о больших моделях, таких как LLM (Large Language Models). В последнее десятилетие были разработаны многочисленные алгоритмы снижения дисперсии, направленные на ускорение стохастической оптимизации в выпуклых и невыпуклых условиях. Однако эти методы не получили широкого признания в обучении глубоких нейронных сетей или LLM. В данной статье мы представляем новый подход под названием MARS (Make vAriaRnce Reduction Shine), который объединяет методы предобусловленных градиентов с техниками снижения дисперсии, чтобы значительно улучшить эффективность обучения больших моделей.

Адаптивные градиентные методы, такие как Adam и AdamW, стали стандартными инструментами для оптимизации в области глубокого обучения. Эти методы адаптируют скорость обучения для каждого параметра модели, что позволяет более эффективно искать оптимальные значения. Однако, несмотря на их популярность и успех, существует ряд проблем, связанных с высокой дисперсией стохастических градиентов, особенно в контексте обучения LLM.

Дисперсия в градиентах может привести к нестабильности в процессе обучения, что замедляет сходимость и может привести к менее оптимальным результатам. В этом контексте техники снижения дисперсии, такие как SAG, SVRG и STORM, могли бы теоретически улучшить производительность, но на практике они сталкивались с ограничениями, такими как необходимость в специфической структуре данных или несовместимость с современными техниками регуляризации, такими как аугментация данных, нормализация пакетов и dropout.

МАРС: Объединение предобусловленных градиентов и снижения дисперсии

МАРС предлагает новую унифицированную оптимизационную структуру, которая сочетает в себе преимущества адаптивных градиентных методов с техниками снижения дисперсии. Основная идея заключается в использовании масштабированного стохастического рекурсивного импульса, который обеспечивает оценку градиента с уменьшенной дисперсией, и предобусловленных обновлений градиентов, которые аппроксимируют метод Ньютона второго порядка для улучшения сложности за итерацию.

Три инстанции МАРС

В рамках нашей структуры мы разработали три конкретных реализации МАРС, каждая из которых использует различные методы предобусловливания:

MARS-AdamW: Использует предобусловливание, основанное на AdamW, с добавлением техники снижения дисперсии.
MARS-Lion: Применяет предобусловливание, используемое в Lion, с интеграцией снижения дисперсии.
MARS-Shampoo: Включает предобусловливание, основанное на алгоритме Shampoo, для улучшения сходимости.

Каждая из этих реализаций демонстрирует, как МАРС может быть адаптирован к существующим методам оптимизации, улучшая их производительность.

Экспериментальные результаты

Эксперименты, проведенные на моделях GPT-2, показали, что МАРС значительно превосходит AdamW в плане скорости обучения и конечной точности. Например, МАРС достигал валидационной потери 2.58 после обучения на 27 миллиардах токенов, тогда как AdamW требовал 50 миллиардов токенов для достижения того же уровня. Кроме того, на задачах, таких как Hellaswag, МАРС улучшил точность до 44.20%, по сравнению с 42.31% для AdamW после обучения на 50 миллиардах токенов.

Заключение

МАРС представляет собой значительный шаг вперед в оптимизации для обучения больших моделей, предлагая универсальный подход, который сочетает в себе преимущества адаптивных градиентных методов и техник снижения дисперсии. Этот подход не только ускоряет процесс обучения, но и улучшает конечные результаты, что делает его перспективным для использования в современных задачах машинного обучения и AI.

Статья на arxiv Оригинал pdf optimizers variance adaptive

Ай Дайджест

МАРС: Развязывание силы снижения дисперсии для обучения больших моделей

МАРС: Объединение предобусловленных градиентов и снижения дисперсии

Три инстанции МАРС

Экспериментальные результаты

Заключение