Свежая выжимка ml и AI статей - каждый день
В последние годы искусственный интеллект и, в частности, большие языковые модели (LLM) сделали значительные шаги вперед в области рассуждения. Вдохновленные успехами таких моделей, как OpenAI o1, исследователи из команды MarcoPolo в Alibaba International Digital Commerce разработали Marco-o1 — модель, которая стремится не только к решению задач с четкими стандартами, но и к открытым, неоднозначным проблемам. В этом обзоре мы рассмотрим ключевые аспекты разработки и достижения Marco-o1, а также её потенциал в расширении границ машинного рассуждения.
С появлением модели o1 от OpenAI, которая продемонстрировала выдающиеся способности к рассуждению, особенно в математике, физике и программировании, возник вопрос: могут ли такие модели эффективно обобщаться на более широкие области, где стандарты отсутствуют, а вознаграждения трудно количественно оценить? Marco-o1 стремится ответить на этот вопрос, применяя методы, такие как тонкая настройка с использованием цепочки мыслей (CoT), поиск по дереву Монте-Карло (MCTS), механизмы рефлексии и инновационные стратегии рассуждения.
Marco-o1 использует методы тонкой настройки, основанные на цепочке мыслей (CoT), чтобы улучшить свои способности к рассуждению. Этот процесс включает в себя обучение модели на данных, которые содержат пошаговые рассуждения, позволяя ей не только выдавать ответы, но и объяснять ход своих мыслей. Базовая модель Qwen2-7B-Instruct была дообучена на комбинации фильтрованных данных из проекта Open-O1, синтетических данных Marco-o1 CoT и инструкционного набора данных Marco-o1. Это позволило модели лучше справляться с задачами, требующими глубокого понимания и рассуждения.
Интеграция MCTS в Marco-o1 представляет собой ключевой элемент для расширения пространства решений. В этой системе:
Эта методология позволяет модели исследовать множество возможных путей рассуждения, выбирая наиболее вероятные и надежные.
Marco-o1 вводит новые стратегии действий рассуждения, включая различие в гранулярности действий (шаги и мини-шаги), что позволяет модели более точно и эффективно искать решения. Также модель использует механизм рефлексии, который побуждает её переосмысливать свои решения, что особенно полезно для решения сложных задач, где первоначальный ответ может быть неверным.
Интересно, что Marco-o1 также применяется к задачам машинного перевода, где она демонстрирует превосходное понимание контекста и нюансов языка. Например, модель успешно переводит идиоматические выражения, которые часто ускользают от стандартных переводчиков, благодаря своей способности к рассуждению и пониманию контекста.
Эксперименты, проведенные на датасете MGSM (Mathematical Generalization and Reasoning), показали, что Marco-o1 превосходит базовую модель Qwen2-7B-Instruct на 6.17% для английского и на 5.60% для китайского языка. Это подтверждает эффективность использованных методов в улучшении способностей к рассуждению.
Использование различных гранулярностей действий в MCTS показало, что более мелкие шаги (mini-steps) могут улучшить точность решения задач, особенно в сложных случаях, где крупные шаги могут упустить важные детали.
Введение механизма рефлексии позволило модели пересмотреть свои решения, что привело к значительному улучшению результатов на сложных задачах, которые изначально были решены неверно.
Marco-o1 представляет собой значительный шаг вперед в развитии моделей рассуждения, демонстрируя, что LLM могут быть адаптированы для решения не только стандартных задач, но и тех, которые требуют открытого, креативного подхода. В будущем планируется усовершенствовать модель через моделирование вознаграждений, основанное на результатах и процессе (Outcome Reward Modeling и Process Reward Modeling), а также через методы обучения с подкреплением, что позволит Marco-o1 лучше справляться с реальными задачами.
Таким образом, Marco-o1 не только расширяет границы того, что возможно с LLM, но и открывает новые горизонты для исследований в области искусственного интеллекта, где рассуждение становится ключевым элементом взаимодействия человека и машины.