Ай Дайджест - категория optimizer

APOLLO: Эффективное обучение больших языковых моделей с использованием памяти

Модели крупного языка (LLM) известны своей высокой затратностью по памяти во время обучения, особенно с популярным оптимизатором AdamW. Эта нагрузка на память необходимость использования более мощных графических процессоров или уменьшения размеров пакетов, что ограничивает масштабируемость и пропускную способность обучения. Для решения этой проблемы предложены различные оптимизаторы с низким потреблением памяти, которые уменьшают использование памяти оптимизатора. Однако они сталкиваются с критическими проблемами: (i) зависимость от дорогих операций SVD; (ii) значительные компромиссы в производительности по сравнению с AdamW; и (iii) по-прежнему значительные накладные расходы по памяти оптимизатора для поддержания конкурентоспособной производительности. В этой работе мы определяем, что правило адаптации скорости обучения AdamW может быть эффективно упрощено в качестве структурированного обновления скорости обучения. Основываясь на этом выводе, мы предлагаем Приблизительное Масштабирование Градиентов для Оптимизации LLM с Низким Потреблением Памяти (APOLLO), которое приближает масштабирование скорости обучения с помощью вспомогательного состояния оптимизатора низкого ранга на основе чистой случайной проекции. Это структурированное правило обновления скорости обучения делает APOLLO очень терпимым к дальнейшему уменьшению памяти при предоставлении сопоставимой производительности предварительного обучения. Даже его вариант ранга-1, APOLLO-Mini, dостигает превосходной производительности предварительного обучения по сравнению с AdamW с затратами на память на уровне SGD. Обширные эксперименты показывают, что серия APOLLO работает на уровне или лучше, чем AdamW, при этом достигая больших savings в памяти за счет почти полного устранения состояний оптимизации AdamW. Эти сбережения обеспечивают значительные преимущества на уровне системы: (1) Увеличенная Пропускная Способность: В 3 раза больше пропускной способности на установке 8xA100-80GB по сравнению с AdamW за счет поддержки 4x больших размеров пакетов. (2) Улучшенная Масштабируемость Модели: Предварительное обучение LLaMA-13B с наивным DDP на графических процессорах A100-80GB без оптимизаций на уровне системы. (3) Дружелюбный к Низким Графическим Процессорам Предварительное обучение: Предварительное обучение LLaMA-7B на одном графическом процессоре с использованием менее 12 ГБ памяти с квантованием весов.

2024-12-09optimizer performance gradient

Осторожные оптимизаторы: Улучшение обучения одной строкой кода

AdamW долгое время был стандартным оптимизатором для предобучения трансформеров. Многие годы наше сообщество искало более быстрые и стабильные оптимизаторы, при этом стремясь к исключительно положительным результатам. В этой работе мы предлагаем однострочное изменение в Pytorch для любого оптимизатора на основе импульса, который мы переименовали в Осторожный Оптимизатор, например, C-AdamW и C-Lion. Наш теоретический результат показывает, что это изменение сохраняет гамильтонову функцию Adam и не нарушает гарантии сходимости в рамках анализа Ляпунова. Кроме того, наше теоретическое понимание раскрывает целое новое семейство оптимизаторов. Среди них мы выбрали самый простой для эмпирических экспериментов, показав ускорение предобучения Llama и MAE до 1,47 раза. Код доступен по адресу https://github.com/kyleliang919/C-Optim.

2024-11-26optimizer convergence pretraining