Свежая выжимка ml и AI статей - каждый день
С ростом популярности больших языковых моделей (LLM) в различных областях, включая математику, возникает необходимость в более сложных и разнообразных бенчмарках для оценки их математических навыков. Существующие наборы данных, такие как GSM8K и MATH, в основном сосредоточены на задачах уровня школы, что оставляет пробел в понимании, как LLM справляются с более сложными университетскими задачами. В этой статье мы рассмотрим новый бенчмарк U-MATH, который включает 1,100 не опубликованных открытых задач университетского уровня, охватывающих шесть основных математических дисциплин, и 20% из которых требуют визуального восприятия для решения.
Существующие бенчмарки, такие как GSM8K и MATH, предоставляют ценные сведения о способности LLM решать математические задачи, однако они ограничены в объеме и разнообразии. Эти наборы данных в основном сосредоточены на задачах, подходящих для школьников, что не позволяет полностью оценить способности моделей на более сложных университетских задачах. Более того, многие из них становятся насыщенными, поскольку модели, такие как GPT-4, достигают высоких результатов на этих задачах, что делает их менее полезными для дальнейшей оценки.
Кроме того, текущее исследование в области математического решения с использованием LLM также сталкивается с проблемами, связанными с оценкой решений. Часто используются LLM для оценки других LLM, что может привести к предвзятости и несоответствиям в результатах. Поэтому необходимо создать новые наборы данных, которые не только предоставляют сложные задачи, но и позволяют оценивать способности LLM в оценке решений.
U-MATH (University Math) представляет собой новый бенчмарк, созданный для оценки математических способностей LLM на уровне университета. Он состоит из 1,100 задач, собранных из учебных материалов, что обеспечивает их актуальность и сложность. Задачи охватывают шесть ключевых дисциплин: предварительное исчисление, алгебру, дифференциальное исчисление, интегральное исчисление, многомерное исчисление и последовательности и ряды.
Для оценки решений задач U-MATH используется LLM, что позволяет обеспечить объективность и точность в оценке. Мы также представляем µ-MATH, набор данных для мета-оценки, который состоит из 1,084 задач, собранных из U-MATH, и предназначен для строгой оценки качества LLM-оценщиков.
Пример задачи из области дифференциального исчисления может выглядеть следующим образом:
Задача: Функция ( s(t) = 2t^3 - 3t^2 - 12t + 8 ) представляет собой положение частицы, движущейся вдоль горизонтальной линии.
- Найдите функции скорости и ускорения.
- Определите временные интервалы, когда объект замедляется или ускоряется.
Решение:
Каждое решение оценивается на основе его соответствия золотому решению. Проблема считается решенной только в том случае, если все требуемые вопросы отвечены и все запрашиваемые элементы корректно определены.
Эксперименты по оценке LLM на U-MATH показывают, что максимальная точность, достигнутая моделями, составляет лишь 63% для текстовых задач и 45% для визуальных задач. Это подчеркивает существующие проблемы в математическом мышлении и оценке LLM.
В рамках мета-оценки µ-MATH мы провели анализ различных открытых и проприетарных LLM, чтобы оценить их способности к оценке решений. Результаты показали, что лучшие модели достигли макро-F1-оценки 80% на µ-MATH, что указывает на значительные трудности в оценке сложных открытых решений.
U-MATH и µ-MATH представляют собой важные шаги в направлении более глубокого понимания математических способностей LLM. Эти наборы данных не только предоставляют более сложные задачи для оценки, но и создают возможность для мета-оценки, что позволяет исследователям лучше понять, как модели оценивают свои собственные решения.
Несмотря на достижения, U-MATH имеет свои ограничения. Он не охватывает весь спектр сложных тем и может иметь предвзятости, связанные с выбором задач. Будущие исследования могут сосредоточиться на улучшении производительности LLM через интеграцию существующих инструментов и изучение их эффективности на задачах U-MATH и µ-MATH.
В заключение, открытие U-MATH и µ-MATH открывает новые горизонты для оценки математических способностей LLM и создает основу для дальнейших исследований в этой области.