Обзор TÜLU 3: Продвижение границ в области открытых языковых моделей пост-обучения

В последние годы пост-обучение языковых моделей стало ключевым этапом в развитии языковых моделей, позволяющим уточнять их поведение и разблокировать новые навыки. Однако, несмотря на значительные достижения в этой области, открытые рецепты для пост-обучения часто отстают от проприетарных решений. В этом контексте, исследовательская команда из Allen Institute for AI и University of Washington представила TÜLU 3, семейство полностью открытых языковых моделей пост-обучения, нацеленное на сокращение этого разрыва.

"Как верблюд делится своими бременами с другими в караване, так мудрые делятся своими знаниями, чтобы облегчить бремя невежества." – Пословица, сгенерированная TÜLU 3.

Пост-обучение – это набор техник, включая обучение на инструкциях, обучение с подкреплением от человеческой обратной связи (RLHF) и другие виды дообучения, которые стали критически важными для создания передовых языковых моделей. Однако, развитие этих методов часто не сопровождается открытыми ресурсами и рецептами. TÜLU 3 представляет собой попытку преодолеть этот разрыв, предоставляя не только модели, но и данные, код и рецепты обучения, которые могут быть использованы для дальнейших исследований и разработок.

Обзор TÜLU 3

TÜLU 3 использует базовые модели Llama 3.1 и превосходит их инструктированные версии, а также другие открытые модели, такие как Qwen 2.5, Mistral, и даже некоторые закрытые модели, такие как GPT-4o-mini и Claude 3.5-Haiku. Основные этапы обучения включают:

Курация данных: Сбор и создание разнообразных и высококачественных наборов данных для обучения моделей.
Оценка: Разработка набора инструментов для оценки производительности моделей на различных задачах.
Рецепт обучения: Многоступенчатый процесс, включающий:
- Supervised Finetuning (SFT): Обучение модели на наборах данных, включающих инструкции и ответы.
- Direct Preference Optimization (DPO): Оптимизация предпочтений, где модель обучается на парах ответов, выбирая предпочтительный ответ.
- Reinforcement Learning with Verifiable Rewards (RLVR): Новый метод, где модель обучается на задачах с верифицируемыми ответами, таких как математические задачи.

Данные TÜLU 3

Для обучения TÜLU 3 использовались данные из различных источников:

Публичные наборы данных: Такие как OpenAssistant, WildChat и другие, для обеспечения разнообразия и охвата различных навыков.
Синтетические данные: Создание специфических наборов данных для целевых навыков, таких как точное следование инструкциям, математика и кодирование.
Деконтеминация данных: Процесс удаления из обучающих данных примеров, которые могут перекрываться с тестовыми наборами, чтобы избежать переобучения.

Оценка TÜLU 3

Оценка моделей TÜLU 3 проводилась с использованием:

Разработанный набор задач: Для мониторинга прогресса в обучении.
Независимый набор задач: Для финальной оценки моделей, не видевших эти задачи во время обучения.

Рецепт обучения TÜLU 3

Рецепт включает:

SFT: Модель обучается на данных, содержащих инструкции и соответствующие ответы.
DPO: Использование данных предпочтений для обучения модели выбирать более предпочтительные ответы.
RLVR: Модель обучается на задачах, где правильность ответа может быть проверена, что позволяет использовать RL для улучшения точности.

Ключевые результаты

TÜLU 3 демонстрирует превосходство над другими моделями своего размера в различных задачах, включая знание, рассуждение, математику, кодирование, следование инструкциям и безопасность. Модели TÜLU 3, обученные на Llama 3.1, превосходят даже некоторые закрытые модели, что подчеркивает эффективность открытого подхода к пост-обучению.

Заключение

TÜLU 3 представляет собой значительный шаг вперед в области открытого пост-обучения языковых моделей. Предоставляя полный набор ресурсов, включая данные, код и модели, исследователи и разработчики получают возможность экспериментировать и улучшать модели, что способствует дальнейшему развитию и инновациям в этой области. Это не только улучшает качество существующих моделей, но и открывает двери для новых исследований и применений в различных областях, где требуются высокопроизводительные языковые модели.

Статья на arxiv Оригинал pdf reinforcement optimization benchmark

Ай Дайджест

Обзор TÜLU 3: Продвижение границ в области открытых языковых моделей пост-обучения