Свежая выжимка ml и AI статей - каждый день
В последние годы пост-обучение языковых моделей стало ключевым этапом в развитии языковых моделей, позволяющим уточнять их поведение и разблокировать новые навыки. Однако, несмотря на значительные достижения в этой области, открытые рецепты для пост-обучения часто отстают от проприетарных решений. В этом контексте, исследовательская команда из Allen Institute for AI и University of Washington представила TÜLU 3, семейство полностью открытых языковых моделей пост-обучения, нацеленное на сокращение этого разрыва.
"Как верблюд делится своими бременами с другими в караване, так мудрые делятся своими знаниями, чтобы облегчить бремя невежества." – Пословица, сгенерированная TÜLU 3.
Пост-обучение – это набор техник, включая обучение на инструкциях, обучение с подкреплением от человеческой обратной связи (RLHF) и другие виды дообучения, которые стали критически важными для создания передовых языковых моделей. Однако, развитие этих методов часто не сопровождается открытыми ресурсами и рецептами. TÜLU 3 представляет собой попытку преодолеть этот разрыв, предоставляя не только модели, но и данные, код и рецепты обучения, которые могут быть использованы для дальнейших исследований и разработок.
TÜLU 3 использует базовые модели Llama 3.1 и превосходит их инструктированные версии, а также другие открытые модели, такие как Qwen 2.5, Mistral, и даже некоторые закрытые модели, такие как GPT-4o-mini и Claude 3.5-Haiku. Основные этапы обучения включают:
Курация данных: Сбор и создание разнообразных и высококачественных наборов данных для обучения моделей.
Оценка: Разработка набора инструментов для оценки производительности моделей на различных задачах.
Рецепт обучения: Многоступенчатый процесс, включающий:
Для обучения TÜLU 3 использовались данные из различных источников:
Оценка моделей TÜLU 3 проводилась с использованием:
Рецепт включает:
TÜLU 3 демонстрирует превосходство над другими моделями своего размера в различных задачах, включая знание, рассуждение, математику, кодирование, следование инструкциям и безопасность. Модели TÜLU 3, обученные на Llama 3.1, превосходят даже некоторые закрытые модели, что подчеркивает эффективность открытого подхода к пост-обучению.
TÜLU 3 представляет собой значительный шаг вперед в области открытого пост-обучения языковых моделей. Предоставляя полный набор ресурсов, включая данные, код и модели, исследователи и разработчики получают возможность экспериментировать и улучшать модели, что способствует дальнейшему развитию и инновациям в этой области. Это не только улучшает качество существующих моделей, но и открывает двери для новых исследований и применений в различных областях, где требуются высокопроизводительные языковые модели.