Свежая выжимка ml и AI статей - каждый день
С момента объявления OpenAI об их модели O1 в 2024 году, ландшафт исследований в области искусственного интеллекта (AI) претерпел значительные изменения. Модель O1 продемонстрировала беспрецедентные способности в решении сложных задач, особенно в области математического мышления. Это привело к гонке среди исследовательских институтов и компаний по всему миру, стремящихся реплицировать эти достижения. В последние недели мы наблюдаем множество заявлений о успехах в репликации, но за этими успехами скрывается тревожная тенденция: приоритет отдается быстрым результатам за счет прозрачности и инноваций.
В этом исследовании мы демонстрируем простой, но мощный метод репликации O1 с использованием техники дистилляции знаний (knowledge distillation) из API O1. Этот подход включает в себя прямое обращение к O1 с запросами на решение сложных задач для генерации длинных цепочек рассуждений, которые затем используются для обучения других моделей. Наши эксперименты показывают, что с помощью всего нескольких десятков тысяч дистиллированных образцов и стандартного обучения с учителем (supervised fine-tuning, SFT), базовая модель может превзойти O1-preview в решении задач Американского пригласительного математического экзамена (AIME).
В первой части нашего путешествия к репликации O1 (Qin et al., 2024) мы ввели новый метод синтеза длинных процессов мышления, названный "учеба на пути" (journey learning). Этот подход использует алгоритмы поиска по дереву (например, Монте-Карло) для исследования различных путей решения, за которым следует стратегический выбор узлов для построения перспективных траекторий исследования. Эти траектории часто содержат неправильные результаты или непродуктивные методы, но в конечном итоге приводят к правильным ответам. Для устранения недостатка рефлексии в деревьях мы используем LLM для анализа предыдущих шагов и выявления ошибок в рассуждениях, что позволяет лучше корректировать курс. Этот процесс производит полные траектории, ведущие к правильным ответам, которые затем собираются для настройки LLM.
Кроме поиска по дереву, существуют и другие методы для синтеза длинных цепочек рассуждений:
Полная аннотация процесса человеческого мышления: Люди редко следуют линейному пути к решению или неудаче. Вместо этого они часто останавливаются для рефлексии, возвращаются назад и пересматривают свой подход при столкновении с препятствиями. Этот естественный процесс отражает характеристики длинного мышления. Тщательно документируя, как люди решают задачи, можно генерировать аутентичные данные для обучения.
Мультиагентный подход: В отличие от "учебы на пути", где модель политики не реагирует на обратную связь напрямую, можно вовлекать несколько агентов для завершения процесса исследования, инструктируя их выполнять различные роли. Например, можно создать систему мультиагентных дебатов, где модель политики генерирует непрерывное рассуждение, в то время как модель критики оценивает, следует ли продолжать или вернуться назад.
Дистилляция из продвинутых моделей: Продвинутые модели, такие как O1, демонстрируют сильные способности к рефлексии и самокоррекции. Следуя распространенной практике обучения слабых моделей с помощью более сильных, дистилляция ответов из O1 является естественным подходом. Однако требуется тщательное составление запросов, поскольку O1 ограничивает доступ к своим внутренним процессам мышления.
В эпоху больших языковых моделей (LLM) качество обучающих данных стало критическим фактором в разработке моделей. Современные исследования показывают, что качество данных оказывает более значительное влияние на производительность модели, чем размер модели или объем данных. Например, LIMA (Zhou et al., 2024) продемонстрировала превосходную производительность с помощью SFT на основе всего лишь 1000 тщательно отобранных запросов и ответов, превзойдя модели, обученные на обширных, но менее качественных наборах данных. Аналогично, Phi-1 (Gunasekar et al., 2023) достигла впечатляющих результатов, используя высококачественные данные, синтезированные из GPT-3.5, превзойдя модели с значительно большим количеством параметров на бенчмарках MBPP (Austin et al., 2021) и HumanEval (Chen et al., 2021a).
Учитывая обширную базу знаний, продвинутые способности к рассуждению и надежность в следовании инструкциям у современных LLM, а также снижение операционных затрат, практика дистилляции высококачественных данных из этих моделей для обучения более мелких моделей становится все более распространенной. Примеры включают Alpaca (Taori et al., 2023), набор данных для настройки инструкций, полученный из GPT-3.5, и WizardLM (Xu et al., 2023), который увеличивает сложность и разнообразие существующих инструкций.
Для подготовки набора данных для последующего обучения (например, SFT) мы начинаем с подмножества олимпийских задач из открытых и собственных наборов данных. Применяется процесс фильтрации для уточнения набора данных: удаляются задачи, зависящие от изображений, те, у которых нет явно обозначенных ответов, и все задачи, требующие доказательств, с использованием тщательно разработанных правил, при этом сохраняются задачи, ответы на которые числовые.
Мы используем технологию переформатирования (Fan et al., 2024) для дальнейшего улучшения набора данных, используя GPT-4o-mini для переписывания оригинальных решений. Процесс переписывания следует конкретным руководствам, обеспечивая, что решения будут пошаговыми, очень детализированными и длиннее. Этот шаг также стандартизирует формат вывода, требуя, чтобы конечные ответы были явно выделены с использованием \boxed{}
, соответствующим формату длинного мышления.
Мы выбрали Qwen2.5-Math-72B (Yang et al., 2024b) в качестве нашей базовой модели из-за её исключительных возможностей в математическом рассуждении. Эта сильная база обеспечивает надежную основу для дальнейшего улучшения способностей модели к рассуждению, гарантируя твердую отправную точку для последующих усовершенствований.
Чтобы ознакомить и адаптировать модель к формату длинного мышления, мы проводим начальную фазу SFT перед дистилляцией. Используя уточненный и переформатированный набор данных, описанный выше, мы обучаем модель генерировать более длинные, детализированные пошаговые решения. Эта фаза направлена на то, чтобы модель стала компетентной в производстве детализированных рассуждений и соблюдала стандартизированный стиль вывода, готовя её для последующих фаз дистилляции.
После этого мы переходим к следующей фазе SFT с использованием дистиллированного набора данных. Этот набор данных, созданный через наш процесс дистилляции, специально курируется для захвата высококачественных, детализированных рассуждений, соответствующих формату длинного мышления. В этой фазе модель дополнительно настраивается для улучшения её способностей к рассуждению и обеспечения согласованности в производстве точных и когерентных выводов.