SmolTulu: Оптимизация Обучения Языковых Моделей через Соотношение Темпа Обучения и Размеров Пакетов

Современные языковые модели (ЯМ) достигли значительных успехов благодаря методам постобучения, таким как supervised fine-tuning (SFT) и reinforcement learning from human feedback (RLHF). Однако большинство исследований сосредоточено на крупных моделях, содержащих миллиарды параметров, в то время как меньшие модели остаются недостаточно изученными. В данной статье мы рассматриваем SmolTulu, языковую модель с 1.7 миллиарда параметров, которая адаптирует методы постобучения, применяемые в Tulu 3, для повышения производительности меньших моделей.

Основные Концепции

Влияние Темпа Обучения и Размеров Пакетов

Наше исследование показывает, что соотношение темпа обучения к размеру пакета существенно влияет на производительность моделей в зависимости от типа задач. Мы обнаружили, что задачи, требующие сложного логического вывода, такие как ARC и GSM8K, выигрывают от более высоких соотношений темпа обучения к размеру пакета. Напротив, задачи распознавания шаблонов, такие как HellaSwag и IFEval, демонстрируют оптимальную производительность при более низких соотношениях.

Оптимизация Постобучения

Мы адаптировали Tulu 3 для улучшения SmolLM2-1.7B, что позволило нам выявить, как динамика оптимизации влияет на результаты моделей. В частности, мы провели несколько абляционных исследований, чтобы понять, какие гиперпараметры лучше всего подходят для меньших моделей.

Эмпирические Результаты

Результаты нашего исследования показывают, что:

Модели с меньшими размерами требуют других стратегий оптимизации, чем крупные модели.
Соотношение темпа обучения к размеру пакета должно быть адаптировано в зависимости от типа задачи.
Модель SmolTulu достигает состояния наилучшей производительности среди моделей с менее чем 2 миллиардами параметров, достигая 67.7% на IFEval и 51.6% на GSM8K.

Связанные Работы

Постобучение и Инструктаж

Разработка современных методов постобучения началась с InstructGPT, который установил основные принципы SFT и RLHF. Эти подходы были адаптированы в открытых проектах, таких как Alpaca и Vicuna, которые продемонстрировали возможность инструктажного обучения с использованием синтетических и пользовательских данных.

Прямое Оптимизация Предпочтений

Direct Preference Optimization (DPO) предлагает упрощенный подход к обучению предпочтений, исключая необходимость в сложных моделях вознаграждения. Это делает обучение предпочтения более доступным и вычислительно эффективным, что особенно важно для ресурсов, ограниченных по вычислительным мощностям.

Взаимосвязь Темпа Обучения и Размеров Пакетов

Исследования показывают, что соотношение темпа обучения и размеров пакетов имеет важное значение для стабильности обучения. Например, работы, проведенные Goyal et al. и Smith et al., установили, что для крупных пакетов темп обучения должен изменяться пропорционально. Однако для меньших моделей, как показали наши исследования, это соотношение требует более тщательной настройки.

Обучение и Результаты

Набор Данных

Мы провели анализ загрязненности наборов данных, используемых в SFT, и обнаружили, что большинство наборов имеют минимальные уровни загрязненности, что обеспечивает надежные измерения производительности.

Гиперпараметры

В ходе экспериментов мы использовали различные конфигурации гиперпараметров, чтобы выявить наилучшие соотношения темпа обучения и размеров пакетов. Мы обнаружили, что для моделей с меньшими размерами, таких как SmolTulu, требуется значительно большее соотношение темпа обучения к размеру пакета по сравнению с более крупными моделями.

Результаты Обучения

Результаты нашего обучения показали, что:

Задачи логического вывода выигрывают от более высоких соотношений темпа обучения к размеру пакета.
Задачи распознавания шаблонов требуют более низких соотношений для достижения оптимальной производительности.
Модель SmolTulu продемонстрировала выдающиеся результаты на различных тестах, включая IFEval и GSM8K.

Заключение

Наша работа демонстрирует, что тщательная адаптация современных методов постобучения может привести к значительным улучшениям даже при значительно меньших масштабах моделей. Мы обнаружили, что меньшие модели требуют существенно различных динамик оптимизации, чтобы достичь оптимальной производительности. Результаты показывают, что высокие соотношения темпа обучения к размеру пакета могут помочь компенсировать ограниченные возможности моделей, особенно в сложных задачах логического вывода.

В будущем мы надеемся расширить наши исследования, чтобы сделать высококачественные языковые модели более доступными и применимыми в условиях ограниченных ресурсов.

Статья на arxiv Оригинал pdf performance rate parameter

Ай Дайджест