Свежая выжимка ml и AI статей - каждый день
С развитием языковых моделей (LLMs) наблюдается значительный прогресс в решении сложных задач, таких как математические задачи и программирование. Однако, несмотря на эти достижения, модели все еще допускают ошибки при решении сложных проблем. В этой связи возникает необходимость в автоматизированной идентификации ошибок в процессе рассуждений, что является критически важным для обеспечения масштабируемого контроля за работой таких систем. В данной статье мы рассмотрим новый проект P-ROCESS-BENCH, который нацелен на измерение способности моделей выявлять ошибочные шаги в математическом рассуждении.
P-ROCESS-BENCH представляет собой новый бенчмарк, состоящий из 3400 тестовых случаев, в основном сосредоточенных на задачах уровня соревнований и олимпиад. Каждый тестовый случай включает в себя пошаговое решение, где ошибки аннотированы экспертами. Модели должны определить самый ранний шаг, содержащий ошибку, или заключить, что все шаги верны. Это позволяет не только оценить качество решений, но и выявить конкретные ошибки в процессе рассуждений.
При разработке P-ROCESS-BENCH были определены несколько ключевых принципов:
Разнообразие задач и сложности решений: Бенчмарк охватывает задачи, соответствующие уровню соревнований и олимпиад, что обеспечивает высокую сложность и разнообразие стилей решений.
Масштаб и точность: Все решения аннотированы с указанием местоположения ошибок несколькими экспертами, что гарантирует высокое качество данных и надежность оценки.
Простота: Модели должны выявлять самый ранний ошибочный шаг в решении, что обеспечивает простоту и универсальность оценки для различных типов моделей.
Для оценки моделей на P-ROCESS-BENCH используются два типа моделей: модели вознаграждения процесса (PRMs) и критические модели.
PRMs предназначены для оценки и контроля промежуточных шагов в процессе рассуждений языковых моделей. Они обучаются на основе меток процесса, которые указывают на правильность каждого шага. Однако, как показывает практика, существующие PRMs часто не справляются с более сложными математическими задачами, такими как те, что представлены в P-ROCESS-BENCH.
Критические модели, такие как Qwen и GPT-4o, используют подходы, позволяющие им критиковать каждое решение шаг за шагом. Они показывают более высокую эффективность в выявлении ошибок по сравнению с PRMs, особенно на сложных задачах. Эти модели способны не только определять наличие ошибок, но и предоставлять детальные объяснения, что делает их более мощными инструментами для анализа.
При проведении обширной оценки на P-ROCESS-BENCH были сделаны два основных наблюдения:
Существующие PRMs, как правило, не могут обобщать на более сложные математические задачи, выходящие за рамки таких наборов данных, как GSM8K и MATH. Они показывают худшие результаты по сравнению с критическими моделями и даже с собственным обученным PRM, который был просто дообучен на наборе данных PRM800K.
Лучшая открытая модель, QwQ-32B-Preview, продемонстрировала способности к критике, сопоставимые с проприетарной моделью GPT-4o, хотя все еще уступает специализированной модели рассуждений o1-mini.
Задача, стоящая перед моделями в P-ROCESS-BENCH, заключается в том, чтобы, получив математическую проблему и пошаговое решение, определить индекс первого шага, в котором возникла ошибка, или вывести индекс -1, если все шаги верны. Ошибки могут быть математическими, логическими, концептуальными или связанными с полнотой решения.
Задачи для P-ROCESS-BENCH были собраны из четырех общедоступных наборов данных, включая GSM8K, MATH, Olympiad-Bench и Omni-MATH. Эти наборы обеспечивают разнообразие задач, которые могут быть использованы для тестирования моделей.
Решения для задач генерируются с использованием различных открытых моделей, таких как Qwen и LLaMA. Это обеспечивает высокое разнообразие стилей решений и позволяет моделям обучаться на реальных примерах.
Аннотация решений осуществляется экспертами с докторскими степенями в области математики. Каждый случай сначала назначается трем различным экспертам, и если они не могут прийти к единому мнению, количество аннотаторов увеличивается до достижения согласия. Это обеспечивает высокую точность аннотаций и минимизирует вероятность ошибок.
Результаты оценки моделей на P-ROCESS-BENCH показывают, что более сложные задачи приводят к более высоким показателям ошибок в процессе рассуждений. Это подчеркивает важность выявления ошибок на ранних этапах, так как многие модели склонны допускать ошибки даже при достижении правильных конечных ответов.
Сравнение показывает, что существующие PRMs обычно уступают критическим моделям в выявлении ошибочных шагов. Критические модели, такие как QwQ-32B-Preview, показывают значительно лучшие результаты, особенно на сложных подмножествах задач.
С увеличением сложности задач наблюдается общее снижение производительности всех моделей. Это указывает на общую проблему как для PRMs, так и для критических моделей в их способности обобщать на более сложные математические задачи.
P-ROCESS-BENCH представляет собой важный шаг вперед в оценке способности языковых моделей выявлять ошибки в процессе рассуждений. Он обеспечивает высокую сложность задач, разнообразие решений и строгую аннотацию данных, что делает его ценным инструментом для дальнейших исследований в области автоматической оценки рассуждений. Ожидается, что P-ROCESS-BENCH станет основой для будущих исследований в области оценки процессов рассуждений, что является критическим шагом к достижению масштабируемого контроля за языковыми моделями.