Возможности LLM в стабильном рассуждении: анализ G-Pass@k и LiveMathBench

С момента появления больших языковых моделей (LLM) сложное рассуждение, особенно в области математического решения задач, стало считаться "коронной драгоценностью" их возможностей. Модели, такие как GPT-4 и LLaMA, продемонстрировали выдающиеся результаты в математических задачах, однако между их производительностью на бенчмарках и реальными приложениями существует значительный разрыв. В данной статье мы рассмотрим новые подходы к оценке возможностей LLM, включая метрику G-Pass@k и динамический бенчмарк LiveMathBench, которые были предложены для более точного измерения их способностей к рассуждению.

Проблема оценки

Текущие методы оценки LLM, такие как Greedy Accuracy и Pass@k, имеют серьезные ограничения. Они могут эффективно измерять либо мгновенную точность, либо пиковую производительность, но не учитывают стабильность выходных данных. Это создает проблемы для приложений, требующих надежных и предсказуемых результатов. В реальных сценариях пользователи часто генерируют несколько ответов, чтобы получить удовлетворительный результат, что подчеркивает необходимость более комплексных методов оценки.

G-Pass@k: новая метрика

G-Pass@k — это новая метрика, которая одновременно оценивает как способность модели к решению задач, так и стабильность ее производительности. Основной принцип G-Pass@k заключается в оценке производительности модели при различных порогах корректности, что позволяет получить более детализированное представление о ее поведении.

Определение G-Pass@k

G-Pass@k определяется как ожидаемое значение, которое учитывает вероятность получения правильных решений в нескольких попытках. Это позволяет оценить как максимальные возможности модели, так и ее стабильность. В отличие от Pass@k, которая просто измеряет вероятность получения хотя бы одного правильного ответа, G-Pass@k учитывает стабильность результатов по всем попыткам.

Применение G-Pass@k

Для демонстрации практических применений G-Pass@k был разработан бенчмарк LiveMathBench, который включает в себя актуальные математические задачи, минимизируя риски утечки данных во время оценки. LiveMathBench включает задачи из различных математических соревнований, что позволяет обеспечить разнообразие и сложность.

LiveMathBench: динамический бенчмарк

LiveMathBench был создан для оценки математических способностей LLM в условиях реального времени. Он включает в себя задачи из таких соревнований, как Национальная математическая олимпиада Китая и Американская математическая олимпиада. Это позволяет моделям быть оцененными на актуальных и сложных задачах, которые они могут встретить в реальной жизни.

Статистика LiveMathBench

Бенчмарк включает в себя вопросы на двух языках — английском и китайском, что обеспечивает многоязычность и разнообразие. Это позволяет моделям продемонстрировать свои навыки в различных контекстах и языковых средах.

Эксперименты и результаты

В рамках экспериментов, проведенных с использованием G-Pass@k на LiveMathBench, было показано, что многие LLM демонстрируют значительную нестабильность при решении сложных задач. Например, производительность моделей может снижаться на более чем 50% при переходе к более строгим критериям оценки.

Основные наблюдения

Нестабильность в рассуждении: Модели, как проприетарные, так и открытые, показывают значительную нестабильность при решении сложных задач. В некоторых случаях производительность падает до 90%.
Ограниченные преимущества от увеличения размера модели: Увеличение размера модели не всегда приводит к улучшению стабильности рассуждений. Ожидаемые улучшения в производительности и стабильности не всегда наблюдаются.
Разрыв между потенциалом и стабильностью: Существует заметный разрыв между потенциальными возможностями моделей и их фактической стабильностью, что подчеркивает необходимость дальнейших исследований в этой области.

Заключение

В данной работе были представлены G-Pass@k и LiveMathBench, которые предлагают более глубокое понимание возможностей LLM в области математического рассуждения. Результаты показывают, что несмотря на значительный потенциал, многие модели испытывают трудности с поддержанием стабильности при решении сложных задач. Это подчеркивает необходимость более строгих методов оценки, которые могут обеспечить надежность и предсказуемость в реальных приложениях.

Таким образом, G-Pass@k и LiveMathBench могут стать важными инструментами для исследовательского сообщества, помогая углубить понимание и развитие языковых моделей.

Статья на arxiv Оригинал pdf evaluation performance metrics

Ай Дайджест