U-MATH: Новый стандарт для оценки математических навыков в LLM

С ростом популярности больших языковых моделей (LLM) в различных областях, включая математику, возникает необходимость в более сложных и разнообразных бенчмарках для оценки их математических навыков. Существующие наборы данных, такие как GSM8K и MATH, в основном сосредоточены на задачах уровня школы, что оставляет пробел в понимании, как LLM справляются с более сложными университетскими задачами. В этой статье мы рассмотрим новый бенчмарк U-MATH, который включает 1,100 не опубликованных открытых задач университетского уровня, охватывающих шесть основных математических дисциплин, и 20% из которых требуют визуального восприятия для решения.

Проблема существующих бенчмарков

Существующие бенчмарки, такие как GSM8K и MATH, предоставляют ценные сведения о способности LLM решать математические задачи, однако они ограничены в объеме и разнообразии. Эти наборы данных в основном сосредоточены на задачах, подходящих для школьников, что не позволяет полностью оценить способности моделей на более сложных университетских задачах. Более того, многие из них становятся насыщенными, поскольку модели, такие как GPT-4, достигают высоких результатов на этих задачах, что делает их менее полезными для дальнейшей оценки.

Кроме того, текущее исследование в области математического решения с использованием LLM также сталкивается с проблемами, связанными с оценкой решений. Часто используются LLM для оценки других LLM, что может привести к предвзятости и несоответствиям в результатах. Поэтому необходимо создать новые наборы данных, которые не только предоставляют сложные задачи, но и позволяют оценивать способности LLM в оценке решений.

Введение в U-MATH

U-MATH (University Math) представляет собой новый бенчмарк, созданный для оценки математических способностей LLM на уровне университета. Он состоит из 1,100 задач, собранных из учебных материалов, что обеспечивает их актуальность и сложность. Задачи охватывают шесть ключевых дисциплин: предварительное исчисление, алгебру, дифференциальное исчисление, интегральное исчисление, многомерное исчисление и последовательности и ряды.

Структура U-MATH

Объем: 1,100 задач, собранных из реальных учебных курсов.
Темы: Задачи охватывают шесть основных дисциплин.
Визуальные элементы: 20% задач требуют понимания изображений, что отражает многомодальную природу реальных математических задач.
Открытые ответы: Все задачи имеют открытые ответы, что делает их более сложными для решения и оценки.

Методология оценки

Для оценки решений задач U-MATH используется LLM, что позволяет обеспечить объективность и точность в оценке. Мы также представляем µ-MATH, набор данных для мета-оценки, который состоит из 1,084 задач, собранных из U-MATH, и предназначен для строгой оценки качества LLM-оценщиков.

Примеры задач U-MATH

Пример задачи из области дифференциального исчисления может выглядеть следующим образом:

Задача: Функция ( s(t) = 2t^3 - 3t^2 - 12t + 8 ) представляет собой положение частицы, движущейся вдоль горизонтальной линии.

Найдите функции скорости и ускорения.

Определите временные интервалы, когда объект замедляется или ускоряется.

Решение:

Скорость ( v(t) = s'(t) = 6t^2 - 6t - 12 ).
Ускорение ( a(t) = v'(t) = 12t - 6 ).

Оценка решений

Каждое решение оценивается на основе его соответствия золотому решению. Проблема считается решенной только в том случае, если все требуемые вопросы отвечены и все запрашиваемые элементы корректно определены.

Результаты

Эксперименты по оценке LLM на U-MATH показывают, что максимальная точность, достигнутая моделями, составляет лишь 63% для текстовых задач и 45% для визуальных задач. Это подчеркивает существующие проблемы в математическом мышлении и оценке LLM.

Мета-оценка µ-MATH

В рамках мета-оценки µ-MATH мы провели анализ различных открытых и проприетарных LLM, чтобы оценить их способности к оценке решений. Результаты показали, что лучшие модели достигли макро-F1-оценки 80% на µ-MATH, что указывает на значительные трудности в оценке сложных открытых решений.

Выводы

U-MATH и µ-MATH представляют собой важные шаги в направлении более глубокого понимания математических способностей LLM. Эти наборы данных не только предоставляют более сложные задачи для оценки, но и создают возможность для мета-оценки, что позволяет исследователям лучше понять, как модели оценивают свои собственные решения.

Ограничения и будущее направление

Несмотря на достижения, U-MATH имеет свои ограничения. Он не охватывает весь спектр сложных тем и может иметь предвзятости, связанные с выбором задач. Будущие исследования могут сосредоточиться на улучшении производительности LLM через интеграцию существующих инструментов и изучение их эффективности на задачах U-MATH и µ-MATH.

В заключение, открытие U-MATH и µ-MATH открывает новые горизонты для оценки математических способностей LLM и создает основу для дальнейших исследований в этой области.

Статья на arxiv Оригинал pdf benchmark multimodal f1-score

Ай Дайджест