APOLLO: Эффективное обучение больших языковых моделей с использованием памяти
Модели крупного языка (LLM) известны своей высокой затратностью по памяти во время обучения, особенно с популярным оптимизатором AdamW. Эта нагрузка на память необходимость использования более мощных графических процессоров или уменьшения размеров пакетов, что ограничивает масштабируемость и пропускную способность обучения. Для решения этой проблемы предложены различные оптимизаторы с низким потреблением памяти, которые уменьшают использование памяти оптимизатора. Однако они сталкиваются с критическими проблемами: (i) зависимость от дорогих операций SVD; (ii) значительные компромиссы в производительности по сравнению с AdamW; и (iii) по-прежнему значительные накладные расходы по памяти оптимизатора для поддержания конкурентоспособной производительности. В этой работе мы определяем, что правило адаптации скорости обучения AdamW может быть эффективно упрощено в качестве структурированного обновления скорости обучения. Основываясь на этом выводе, мы предлагаем Приблизительное Масштабирование Градиентов для Оптимизации LLM с Низким Потреблением Памяти (APOLLO), которое приближает масштабирование скорости обучения с помощью вспомогательного состояния оптимизатора низкого ранга на основе чистой случайной проекции. Это структурированное правило обновления скорости обучения делает APOLLO очень терпимым к дальнейшему уменьшению памяти при предоставлении сопоставимой производительности предварительного обучения. Даже его вариант ранга-1, APOLLO-Mini, dостигает превосходной производительности предварительного обучения по сравнению с AdamW с затратами на память на уровне SGD. Обширные эксперименты показывают, что серия APOLLO работает на уровне или лучше, чем AdamW, при этом достигая больших savings в памяти за счет почти полного устранения состояний оптимизации AdamW. Эти сбережения обеспечивают значительные преимущества на уровне системы: (1) Увеличенная Пропускная Способность: В 3 раза больше пропускной способности на установке 8xA100-80GB по сравнению с AdamW за счет поддержки 4x больших размеров пакетов. (2) Улучшенная Масштабируемость Модели: Предварительное обучение LLaMA-13B с наивным DDP на графических процессорах A100-80GB без оптимизаций на уровне системы. (3) Дружелюбный к Низким Графическим Процессорам Предварительное обучение: Предварительное обучение LLaMA-7B на одном графическом процессоре с использованием менее 12 ГБ памяти с квантованием весов.