Ай Дайджест - категория search

Развитие моделей открытого рассуждения: Взгляд на Marco-o1

В настоящее время OpenAI o1 вызвал всплеск интереса к изучению крупных моделей рассуждения (LRM). Используя этот импульс, Marco-o1 не только сосредотачивается на дисциплинах с стандартными ответами, таких как математика, физика и программирование — которые хорошо подходят для обучения с подкреплением (RL) — но также уделяет больше внимания решениям открытого типа. Мы ставим перед собой задачу ответить на вопрос: "Может ли модель o1 эффективно обобщаться на более широкие области, где отсутствуют четкие стандарты и награды трудно количественно оценить?" Marco-o1 работает на основе тонкой настройки цепочки рассуждений (CoT), поиска по методу Монте-Карло (MCTS), механизмов рефлексии и инновационных стратегий рассуждений — все это оптимизировано для решения сложных задач в реальном мире.

2024-11-22search reasoning models