Mix-LN: Раскрытие потенциала глубоких слоев путем комбинирования Pre-LN и Post-LN
"Крупные языковые модели (LLM) достиглиRemarkable успеха, однако недавние данные показывают, что их более глубокие слои часто вносят минимальный вклад и могут быть обрезаны без ущерба для общей производительности. Некоторые рассматривают это как возможность для сжатия модели, однако мы рассматриваем это как недоработку в обучении, коренящуюся в широком использовании предварительной нормализации слоев (Pre-LN). Мы показываем, что Pre-LN, часто используемая в моделях, таких как GPT и LLaMA, приводит к уменьшению норм градиентов в более глубоких слоях, снижая их эффективность. В отличие от этого, пост-слойная нормализация (Post-LN) сохраняет большие нормы градиентов в глубоких слоях, но страдает от исчезающих градиентов в более ранних слоях. Чтобы решить эту проблему, мы представляем Mix-LN, новую технику нормализации, которая объединяет сильные стороны Pre-LN и Post-LN в рамках одной модели. Mix-LN применяет Post-LN к более ранним слоям и Pre-LN к более глубоким слоям, обеспечивая более равномерные градиенты между слоями. Это позволяет всем частям сети, как поверхностным, так и глубоким слоям, эффективно делать вклад в обучение. Обширные эксперименты с различными размерами модели от 70M до 7B показывают, что Mix-LN постоянно превосходит как Pre-LN, так и Post-LN, способствуя более сбалансированным, здоровым нормам градиентов по всей сети и улучшая общее качество предобучения LLM. Более того, мы демонстрируем, что модели, предварительно обученные с Mix-LN, лучше учатся по сравнению с теми, которые используют Pre-LN или Post-LN в процессе контролируемой дообучения (SFT) и обучения с подкреплением на основе обратной связи от людей (RLHF), подчеркивая критическую важность качественных глубоких слоев. Эффективно устраняя неэффективность глубоких слоев в современных LLM, Mix-LN раскрывает их потенциал, повышая мощность модели без увеличения ее размера. Наш код доступен по адресу https://github.com/pixeli99/MixLN."