Свежая выжимка ml и AI статей - каждый день
Современные языковые модели (ЯМ) достигли значительных успехов благодаря методам постобучения, таким как supervised fine-tuning (SFT) и reinforcement learning from human feedback (RLHF). Однако большинство исследований сосредоточено на крупных моделях, содержащих миллиарды параметров, в то время как меньшие модели остаются недостаточно изученными. В данной статье мы рассматриваем SmolTulu, языковую модель с 1.7 миллиарда параметров, которая адаптирует методы постобучения, применяемые в Tulu 3, для повышения производительности меньших моделей.
Наше исследование показывает, что соотношение темпа обучения к размеру пакета существенно влияет на производительность моделей в зависимости от типа задач. Мы обнаружили, что задачи, требующие сложного логического вывода, такие как ARC и GSM8K, выигрывают от более высоких соотношений темпа обучения к размеру пакета. Напротив, задачи распознавания шаблонов, такие как HellaSwag и IFEval, демонстрируют оптимальную производительность при более низких соотношениях.
Мы адаптировали Tulu 3 для улучшения SmolLM2-1.7B, что позволило нам выявить, как динамика оптимизации влияет на результаты моделей. В частности, мы провели несколько абляционных исследований, чтобы понять, какие гиперпараметры лучше всего подходят для меньших моделей.
Результаты нашего исследования показывают, что:
Разработка современных методов постобучения началась с InstructGPT, который установил основные принципы SFT и RLHF. Эти подходы были адаптированы в открытых проектах, таких как Alpaca и Vicuna, которые продемонстрировали возможность инструктажного обучения с использованием синтетических и пользовательских данных.
Direct Preference Optimization (DPO) предлагает упрощенный подход к обучению предпочтений, исключая необходимость в сложных моделях вознаграждения. Это делает обучение предпочтения более доступным и вычислительно эффективным, что особенно важно для ресурсов, ограниченных по вычислительным мощностям.
Исследования показывают, что соотношение темпа обучения и размеров пакетов имеет важное значение для стабильности обучения. Например, работы, проведенные Goyal et al. и Smith et al., установили, что для крупных пакетов темп обучения должен изменяться пропорционально. Однако для меньших моделей, как показали наши исследования, это соотношение требует более тщательной настройки.
Мы провели анализ загрязненности наборов данных, используемых в SFT, и обнаружили, что большинство наборов имеют минимальные уровни загрязненности, что обеспечивает надежные измерения производительности.
В ходе экспериментов мы использовали различные конфигурации гиперпараметров, чтобы выявить наилучшие соотношения темпа обучения и размеров пакетов. Мы обнаружили, что для моделей с меньшими размерами, таких как SmolTulu, требуется значительно большее соотношение темпа обучения к размеру пакета по сравнению с более крупными моделями.
Результаты нашего обучения показали, что:
Наша работа демонстрирует, что тщательная адаптация современных методов постобучения может привести к значительным улучшениям даже при значительно меньших масштабах моделей. Мы обнаружили, что меньшие модели требуют существенно различных динамик оптимизации, чтобы достичь оптимальной производительности. Результаты показывают, что высокие соотношения темпа обучения к размеру пакета могут помочь компенсировать ограниченные возможности моделей, особенно в сложных задачах логического вывода.
В будущем мы надеемся расширить наши исследования, чтобы сделать высококачественные языковые модели более доступными и применимыми в условиях ограниченных ресурсов.