Проект P-ROCESS-BENCH: Автоматизация выявления ошибок в математическом рассуждении

С развитием языковых моделей (LLMs) наблюдается значительный прогресс в решении сложных задач, таких как математические задачи и программирование. Однако, несмотря на эти достижения, модели все еще допускают ошибки при решении сложных проблем. В этой связи возникает необходимость в автоматизированной идентификации ошибок в процессе рассуждений, что является критически важным для обеспечения масштабируемого контроля за работой таких систем. В данной статье мы рассмотрим новый проект P-ROCESS-BENCH, который нацелен на измерение способности моделей выявлять ошибочные шаги в математическом рассуждении.

Что такое P-ROCESS-BENCH?

P-ROCESS-BENCH представляет собой новый бенчмарк, состоящий из 3400 тестовых случаев, в основном сосредоточенных на задачах уровня соревнований и олимпиад. Каждый тестовый случай включает в себя пошаговое решение, где ошибки аннотированы экспертами. Модели должны определить самый ранний шаг, содержащий ошибку, или заключить, что все шаги верны. Это позволяет не только оценить качество решений, но и выявить конкретные ошибки в процессе рассуждений.

Цели и принципы

При разработке P-ROCESS-BENCH были определены несколько ключевых принципов:

Разнообразие задач и сложности решений: Бенчмарк охватывает задачи, соответствующие уровню соревнований и олимпиад, что обеспечивает высокую сложность и разнообразие стилей решений.
Масштаб и точность: Все решения аннотированы с указанием местоположения ошибок несколькими экспертами, что гарантирует высокое качество данных и надежность оценки.
Простота: Модели должны выявлять самый ранний ошибочный шаг в решении, что обеспечивает простоту и универсальность оценки для различных типов моделей.

Методы оценки

Для оценки моделей на P-ROCESS-BENCH используются два типа моделей: модели вознаграждения процесса (PRMs) и критические модели.

Модели вознаграждения процесса (PRMs)

PRMs предназначены для оценки и контроля промежуточных шагов в процессе рассуждений языковых моделей. Они обучаются на основе меток процесса, которые указывают на правильность каждого шага. Однако, как показывает практика, существующие PRMs часто не справляются с более сложными математическими задачами, такими как те, что представлены в P-ROCESS-BENCH.

Критические модели

Критические модели, такие как Qwen и GPT-4o, используют подходы, позволяющие им критиковать каждое решение шаг за шагом. Они показывают более высокую эффективность в выявлении ошибок по сравнению с PRMs, особенно на сложных задачах. Эти модели способны не только определять наличие ошибок, но и предоставлять детальные объяснения, что делает их более мощными инструментами для анализа.

Сравнение моделей

При проведении обширной оценки на P-ROCESS-BENCH были сделаны два основных наблюдения:

Существующие PRMs, как правило, не могут обобщать на более сложные математические задачи, выходящие за рамки таких наборов данных, как GSM8K и MATH. Они показывают худшие результаты по сравнению с критическими моделями и даже с собственным обученным PRM, который был просто дообучен на наборе данных PRM800K.
Лучшая открытая модель, QwQ-32B-Preview, продемонстрировала способности к критике, сопоставимые с проприетарной моделью GPT-4o, хотя все еще уступает специализированной модели рассуждений o1-mini.

Конструкция бенчмарка

Определение задачи

Задача, стоящая перед моделями в P-ROCESS-BENCH, заключается в том, чтобы, получив математическую проблему и пошаговое решение, определить индекс первого шага, в котором возникла ошибка, или вывести индекс -1, если все шаги верны. Ошибки могут быть математическими, логическими, концептуальными или связанными с полнотой решения.

Курация задач

Задачи для P-ROCESS-BENCH были собраны из четырех общедоступных наборов данных, включая GSM8K, MATH, Olympiad-Bench и Omni-MATH. Эти наборы обеспечивают разнообразие задач, которые могут быть использованы для тестирования моделей.

Генерация решений

Решения для задач генерируются с использованием различных открытых моделей, таких как Qwen и LLaMA. Это обеспечивает высокое разнообразие стилей решений и позволяет моделям обучаться на реальных примерах.

Аннотация экспертов

Аннотация решений осуществляется экспертами с докторскими степенями в области математики. Каждый случай сначала назначается трем различным экспертам, и если они не могут прийти к единому мнению, количество аннотаторов увеличивается до достижения согласия. Это обеспечивает высокую точность аннотаций и минимизирует вероятность ошибок.

Результаты и наблюдения

Результаты оценки моделей на P-ROCESS-BENCH показывают, что более сложные задачи приводят к более высоким показателям ошибок в процессе рассуждений. Это подчеркивает важность выявления ошибок на ранних этапах, так как многие модели склонны допускать ошибки даже при достижении правильных конечных ответов.

Сравнение между PRMs и критическими моделями

Сравнение показывает, что существующие PRMs обычно уступают критическим моделям в выявлении ошибочных шагов. Критические модели, такие как QwQ-32B-Preview, показывают значительно лучшие результаты, особенно на сложных подмножествах задач.

Обобщение по сложности

С увеличением сложности задач наблюдается общее снижение производительности всех моделей. Это указывает на общую проблему как для PRMs, так и для критических моделей в их способности обобщать на более сложные математические задачи.

Заключение

P-ROCESS-BENCH представляет собой важный шаг вперед в оценке способности языковых моделей выявлять ошибки в процессе рассуждений. Он обеспечивает высокую сложность задач, разнообразие решений и строгую аннотацию данных, что делает его ценным инструментом для дальнейших исследований в области автоматической оценки рассуждений. Ожидается, что P-ROCESS-BENCH станет основой для будущих исследований в области оценки процессов рассуждений, что является критическим шагом к достижению масштабируемого контроля за языковыми моделями.

Статья на arxiv Оригинал pdf reasoning evaluation identification

Ай Дайджест