Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Mix-LN: Раскрытие потенциала глубоких слоев путем комбинирования Pre-LN и Post-LN

Большие языковые модели (LLMs) стали важным достижением в области искусственного интеллекта, демонстрируя выдающиеся способности в понимании и генерации текста, схожего с человеческим. Эти модели обучаются на обширных датасетах, охватывающих множество языков и тем, и они приводят к значительным улучшениям в различных областях, включая науку, технологии и повседневные взаимодействия человека с компьютером. Однако недавние исследования выявили важный аспект, касающийся эффективности глубоких слоев в LLMs, особенно тех, которые находятся на больших глубинах.

Проблема глубоких слоев

Согласно новым данным, глубокие слои моделей часто оказываются менее эффективными и могут быть удалены без значительного влияния на общую производительность модели. Это открытие было воспринято многими как возможность для сжатия модели, но мы рассматриваем это как недостаток в процессе обучения, который в значительной степени связан с распространенным использованием Pre-Layer Normalization (Pre-LN). Мы показали, что Pre-LN, применяемый в таких моделях, как GPT и LLaMA, приводит к уменьшению норм градиентов в глубоких слоях, что снижает их эффективность.

С другой стороны, Post-Layer Normalization (Post-LN) сохраняет большие нормы градиентов в глубоких слоях, но страдает от исчезающих градиентов в ранних слоях. Чтобы решить эту проблему, мы представляем Mix-LN — новую технику нормализации, которая объединяет сильные стороны Pre-LN и Post-LN в одной модели. Mix-LN применяет Post-LN к ранним слоям и Pre-LN к глубоким слоям, обеспечивая более равномерное распределение градиентов по слоям. Это позволяет всем частям сети — как поверхностным, так и глубоким слоям — эффективно участвовать в обучении.

Гипотеза и оценка

В этом разделе мы оценим нашу гипотезу о том, что неэффективность глубоких слоев в LLMs в основном обусловлена выбором нормализации слоев.

Нормализация слоев и градиенты

Сравним архитектуры Post-LN и Pre-LN. В Post-LN нормализация применяется после остаточного сложения, в то время как в Pre-LN — до остаточного сложения. Это различие приводит к тому, что в Post-LN градиенты в глубоких слоях остаются большими, тогда как в Pre-LN градиенты уменьшаются. Мы провели эксперименты, чтобы подтвердить, что глубокие слои LLaMa2-7B (модель Pre-LN) действительно имеют высокую степень сходства, и их удаление приводит к минимальному влиянию на производительность по сравнению с ранними слоями. Напротив, BERT, который использует Post-LN, показывает большую схожесть среди первых слоев, которые вносят меньший вклад в выход модели.

Эмпирическая оценка

Мы провели два набора экспериментов: один с открытыми большими LLMs (такими как LLaMa2-7B и BERT-large), и второй с небольшими LLMs, обученными самостоятельно. В обоих случаях мы наблюдали аналогичные тенденции, которые подтверждают наши предыдущие наблюдения о неэффективности глубоких слоев в LLMs, использующих Pre-LN.

Mix-LN: Новая техника нормализации

На основе наших выводов мы предлагаем новую технику нормализации, названную Mix-LN, которая синергетически использует Pre-LN и Post-LN для достижения более сбалансированных и здоровых норм градиентов по всей сети. Mix-LN применяет Post-LN к первым слоям и Pre-LN к глубоким слоям, что позволяет улучшить поток градиентов в глубоких слоях, одновременно стабилизируя градиенты в ранних слоях.

Основные результаты экспериментов

Предварительное обучение LLM

Мы проверили эффективность Mix-LN, сравнив его с различными распространенными техниками нормализации, включая Post-LN и DeepNorm. Результаты показали, что Mix-LN последовательно достигает наименьшей перплексии среди различных размеров моделей. Это подтверждает, что Mix-LN не только преодолевает нестабильность, связанную с Post-LN, но и улучшает качество модели за счет объединения преимуществ Pre-LN и Post-LN.

Масштабирование до моделей с 7B параметрами

Мы также провели эксперименты с архитектурой LLaMa-7B, чтобы проверить, сохраняются ли преимущества Mix-LN при увеличении размера модели. Результаты показали, что Mix-LN постоянно превосходит Pre-LN на ранних этапах обучения, что указывает на его эффективность и способность масштабироваться.

Супервизированное дообучение

В процессе супервизированного дообучения Mix-LN показывает превосходство над другими техниками нормализации, достигая значительных улучшений в производительности на различных задачах. Это связано с тем, что слои Mix-LN лучше захватывают разнообразные и богатые признаки, что позволяет модели делать более тонкие предсказания и улучшать обобщение.

Обучение с подкреплением на основе человеческой обратной связи

Мы также оценили Mix-LN в контексте обучения с подкреплением на основе человеческой обратной связи. Результаты показали, что Mix-LN значительно превосходит Pre-LN, что подтверждает его преимущества в контексте адаптивного обучения и улучшения качества выводов модели.

Заключение

В данной работе мы выявили неэффективности глубоких слоев в LLMs, идентифицировав широкое использование Pre-LN как коренную причину. Мы представили Mix-LN — гибридную технику нормализации, которая сочетает преимущества Pre-LN и Post-LN. Mix-LN обеспечивает сбалансированные нормы градиентов по всей сети, что позволяет более эффективно обучать модель. Наши эксперименты показывают, что Mix-LN последовательно превосходит как Pre-LN, так и Post-LN, улучшая производительность предобучения и дообучения без увеличения размера модели. Mix-LN раскрывает потенциал глубоких слоев, повышая общую емкость и эффективность LLMs.