Ай Дайджест - категория batch

SmolTulu: Оптимизация Обучения Языковых Моделей через Соотношение Темпа Обучения и Размеров Пакетов

Мы представляем SmolTulu-1.7b-Instruct, упомянутый в этом отчете как SmolTulu-DPO-1130, языковую модель, откалиброванную на инструкции, которая адаптирует постобучение Tulu 3 от AllenAI для улучшения базовой модели Huggingface SmolLM2-1.7B. Путем комплексного эмпирического анализа с использованием модели на 135M параметров мы демонстрируем, что связь между скоростью обучения и размером батча значительно влияет на производительность модели в зависимости от задачи. Наши результаты показывают четкое разделение: задачи на рассуждение, такие как ARC и GSM8K, выигрывают от более высоких соотношений скорости обучения к размеру батча, в то время как задачи распознавания шаблонов, такие как HellaSwag и IFEval, показывают оптимальную производительность с более низкими соотношениями. Эти идеи легли в основу разработки SmolTulu, которая достигает передовой производительности среди моделей с менее чем 2B параметров в отслеживании инструкций, набирая 67.7% на IFEval (Delta11%), и математическом рассуждении с 51.6% на GSM8K (Delta3.4%), с альтернативной версией, набирающей 57.1% на ARC (Delta5.4%). Мы публикуем нашу модель, рецепты обучения и абляционные исследования для содействия дальнейшим исследованиям в области эффективного согласования моделей, демонстрируя, что тщательная адаптация динамики оптимизации может помочь сократить разрыв в возможностях между малыми и крупными языковыми моделями.

2024-12-16alignment parameter batch

APOLLO: Эффективное обучение больших языковых моделей с использованием памяти

Модели крупного языка (LLM) известны своей высокой затратностью по памяти во время обучения, особенно с популярным оптимизатором AdamW. Эта нагрузка на память необходимость использования более мощных графических процессоров или уменьшения размеров пакетов, что ограничивает масштабируемость и пропускную способность обучения. Для решения этой проблемы предложены различные оптимизаторы с низким потреблением памяти, которые уменьшают использование памяти оптимизатора. Однако они сталкиваются с критическими проблемами: (i) зависимость от дорогих операций SVD; (ii) значительные компромиссы в производительности по сравнению с AdamW; и (iii) по-прежнему значительные накладные расходы по памяти оптимизатора для поддержания конкурентоспособной производительности. В этой работе мы определяем, что правило адаптации скорости обучения AdamW может быть эффективно упрощено в качестве структурированного обновления скорости обучения. Основываясь на этом выводе, мы предлагаем Приблизительное Масштабирование Градиентов для Оптимизации LLM с Низким Потреблением Памяти (APOLLO), которое приближает масштабирование скорости обучения с помощью вспомогательного состояния оптимизатора низкого ранга на основе чистой случайной проекции. Это структурированное правило обновления скорости обучения делает APOLLO очень терпимым к дальнейшему уменьшению памяти при предоставлении сопоставимой производительности предварительного обучения. Даже его вариант ранга-1, APOLLO-Mini, dостигает превосходной производительности предварительного обучения по сравнению с AdamW с затратами на память на уровне SGD. Обширные эксперименты показывают, что серия APOLLO работает на уровне или лучше, чем AdamW, при этом достигая больших savings в памяти за счет почти полного устранения состояний оптимизации AdamW. Эти сбережения обеспечивают значительные преимущества на уровне системы: (1) Увеличенная Пропускная Способность: В 3 раза больше пропускной способности на установке 8xA100-80GB по сравнению с AdamW за счет поддержки 4x больших размеров пакетов. (2) Улучшенная Масштабируемость Модели: Предварительное обучение LLaMA-13B с наивным DDP на графических процессорах A100-80GB без оптимизаций на уровне системы. (3) Дружелюбный к Низким Графическим Процессорам Предварительное обучение: Предварительное обучение LLaMA-7B на одном графическом процессоре с использованием менее 12 ГБ памяти с квантованием весов.

2024-12-09throughput performance batch