Проект P-ROCESS-BENCH: Автоматизация выявления ошибок в математическом рассуждении
Поскольку языковые модели регулярно делают ошибки при решении математических задач, автоматизированная идентификация ошибок в процессе рассуждения становится все более значимой для их масштабируемого контроля. В данной статье мы представляем ProcessBench для оценки способности идентифицировать ошибочные шаги в математическом рассуждении. Он состоит из 3400 тестовых случаев, в основном сосредоточенных на задачах математики уровня соревнований и олимпиад. Каждый тестовый случай содержит пошаговое решение с аннотированным местом ошибки, отмеченным человеческими экспертами. Модели должны идентифицировать самый ранний шаг, содержащий ошибку, или сделать вывод о том, что все шаги верны. Мы проводим обширную оценку на ProcessBench, включая два типа моделей: модели вознаграждения процесса (PRMs) и модели критиков, где для последних мы просим общие языковые модели критиковать каждое решение шаг за шагом. Мы делаем два основных наблюдения: (1) Существующие PRMs, как правило, не могут обобщать более сложные математические задачи за пределами GSM8K и MATH. Они уступают как моделям критиков (т.е. запрошенным общим языковым моделям), так и нашей собранной PRM, которая явно донастраивается на наборе данных PRM800K. (2) Лучшая открытая модель, QwQ-32B-Preview, продемонстрировала способность к критике на уровне соперничающим с проприетарной моделью GPT-4o, несмотря на то, что она все еще отстает от специализированной модели рассуждений o1-mini. Мы надеемся, что ProcessBench сможет способствовать будущим исследованиям в области оценки процесса рассуждений, прокладывая путь к масштабируемому контролю языковых моделей.