Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "gradient"

Mix-LN: Раскрытие потенциала глубоких слоев путем комбинирования Pre-LN и Post-LN

"Крупные языковые модели (LLM) достиглиRemarkable успеха, однако недавние данные показывают, что их более глубокие слои часто вносят минимальный вклад и могут быть обрезаны без ущерба для общей производительности. Некоторые рассматривают это как возможность для сжатия модели, однако мы рассматриваем это как недоработку в обучении, коренящуюся в широком использовании предварительной нормализации слоев (Pre-LN). Мы показываем, что Pre-LN, часто используемая в моделях, таких как GPT и LLaMA, приводит к уменьшению норм градиентов в более глубоких слоях, снижая их эффективность. В отличие от этого, пост-слойная нормализация (Post-LN) сохраняет большие нормы градиентов в глубоких слоях, но страдает от исчезающих градиентов в более ранних слоях. Чтобы решить эту проблему, мы представляем Mix-LN, новую технику нормализации, которая объединяет сильные стороны Pre-LN и Post-LN в рамках одной модели. Mix-LN применяет Post-LN к более ранним слоям и Pre-LN к более глубоким слоям, обеспечивая более равномерные градиенты между слоями. Это позволяет всем частям сети, как поверхностным, так и глубоким слоям, эффективно делать вклад в обучение. Обширные эксперименты с различными размерами модели от 70M до 7B показывают, что Mix-LN постоянно превосходит как Pre-LN, так и Post-LN, способствуя более сбалансированным, здоровым нормам градиентов по всей сети и улучшая общее качество предобучения LLM. Более того, мы демонстрируем, что модели, предварительно обученные с Mix-LN, лучше учатся по сравнению с теми, которые используют Pre-LN или Post-LN в процессе контролируемой дообучения (SFT) и обучения с подкреплением на основе обратной связи от людей (RLHF), подчеркивая критическую важность качественных глубоких слоев. Эффективно устраняя неэффективность глубоких слоев в современных LLM, Mix-LN раскрывает их потенциал, повышая мощность модели без увеличения ее размера. Наш код доступен по адресу https://github.com/pixeli99/MixLN."

APOLLO: Эффективное обучение больших языковых моделей с использованием памяти

Модели крупного языка (LLM) известны своей высокой затратностью по памяти во время обучения, особенно с популярным оптимизатором AdamW. Эта нагрузка на память необходимость использования более мощных графических процессоров или уменьшения размеров пакетов, что ограничивает масштабируемость и пропускную способность обучения. Для решения этой проблемы предложены различные оптимизаторы с низким потреблением памяти, которые уменьшают использование памяти оптимизатора. Однако они сталкиваются с критическими проблемами: (i) зависимость от дорогих операций SVD; (ii) значительные компромиссы в производительности по сравнению с AdamW; и (iii) по-прежнему значительные накладные расходы по памяти оптимизатора для поддержания конкурентоспособной производительности. В этой работе мы определяем, что правило адаптации скорости обучения AdamW может быть эффективно упрощено в качестве структурированного обновления скорости обучения. Основываясь на этом выводе, мы предлагаем Приблизительное Масштабирование Градиентов для Оптимизации LLM с Низким Потреблением Памяти (APOLLO), которое приближает масштабирование скорости обучения с помощью вспомогательного состояния оптимизатора низкого ранга на основе чистой случайной проекции. Это структурированное правило обновления скорости обучения делает APOLLO очень терпимым к дальнейшему уменьшению памяти при предоставлении сопоставимой производительности предварительного обучения. Даже его вариант ранга-1, APOLLO-Mini, dостигает превосходной производительности предварительного обучения по сравнению с AdamW с затратами на память на уровне SGD. Обширные эксперименты показывают, что серия APOLLO работает на уровне или лучше, чем AdamW, при этом достигая больших savings в памяти за счет почти полного устранения состояний оптимизации AdamW. Эти сбережения обеспечивают значительные преимущества на уровне системы: (1) Увеличенная Пропускная Способность: В 3 раза больше пропускной способности на установке 8xA100-80GB по сравнению с AdamW за счет поддержки 4x больших размеров пакетов. (2) Улучшенная Масштабируемость Модели: Предварительное обучение LLaMA-13B с наивным DDP на графических процессорах A100-80GB без оптимизаций на уровне системы. (3) Дружелюбный к Низким Графическим Процессорам Предварительное обучение: Предварительное обучение LLaMA-7B на одном графическом процессоре с использованием менее 12 ГБ памяти с квантованием весов.

МАРС: Развязывание силы снижения дисперсии для обучения больших моделей

Обучение глубоких нейронных сетей, а в последнее время и крупных моделей, требует эффективных и масштабируемых оптимизаторов. Адаптивные алгоритмы градиентного спуска, такие как Adam, AdamW и их вариации, играют ключевую роль в этой задаче. Несмотря на разработку множества алгоритмов снижения дисперсии за последнее десятилетие, направленных на ускорение стохастической оптимизации как в выпуклых, так и в невыпуклых условиях, снижение дисперсии не получило широкого распространения при обучении глубоких нейронных сетей или крупных языковых моделей. В результате этот подход остается менее популярным в современном ИИ. В данной статье, чтобы раскрыть потенциал снижения дисперсии для эффективного обучения крупных моделей, мы предлагаем единую оптимизационную структуру MARS (Make vAriance Reduction Shine), которая объединяет методы предобусловленного градиента и снижение дисперсии с помощью техники масштабированного стохастического рекурсивного импульса. В рамках нашего подхода мы представляем три варианта MARS, которые используют обновления градиентов, предобусловленные на основе AdamW, Lion и Shampoo соответственно. Мы также проводим связь между нашими алгоритмами и существующими оптимизаторами. Экспериментальные результаты по обучению моделей GPT-2 показывают, что MARS значительно превосходит AdamW.

Что произошло в слоях LLM при обучении на быстрых и медленных размышлениях: Градиентная перспектива

Что влияет на послеобучение крупных языковых моделей (LLM)? Мы исследуем паттерны обучения различных слоев крупных языковых моделей через призму градиентов, когда обучение ведется с различными откликами и начальными моделями. Нас особенно интересует, как быстрое и медленное мышление влияет на градиенты по слоям, учитывая недавнюю популярность обучения LLM на путях рассуждений, таких как цепочки мыслей (CoT) и процесс вознаграждения. В нашем исследовании быстрое мышление без использования CoT приводит к большим градиентам и большим различиям градиентов между слоями по сравнению с медленным мышлением (подробный CoT), что указывает на стабильность обучения, обеспечиваемую последним. Более того, предварительно обученные LLM менее подвержены нестабильности быстрого мышления, чем LLM, настроенные на инструкции. Дополнительно мы изучаем, могут ли паттерны градиентов отражать правильность ответов при обучении различных LLM с использованием путей быстрого и медленного мышления. Результаты показывают, что градиенты медленного мышления могут различать правильные и неуместные пути рассуждений. В сравнении, мы проводим аналогичный анализ градиентов на задачах обучения нерассуждающим знаниям, где, однако, тривиальное увеличение длины ответа не приводит к аналогичному поведению медленного мышления. Наше исследование укрепляет фундаментальное понимание обучения LLM и дает новые взгляды на его эффективность и стабильность, что прокладывает путь к созданию обобщающего агента System-2. Наш код, данные и статистика градиентов доступны по ссылке: https://github.com/MingLiiii/Layer_Gradient.