Динамический бенчмарк DYNAMATH для оценки устойчивости математического рассуждения в моделях видео-языкового взаимодействия

Современные модели видео-языкового взаимодействия (VLMs) демонстрируют значительный прогресс в решении задач, требующих понимания визуального контекста и математических рассуждений. Однако, несмотря на эти достижения, VLMs часто проявляют неспособность к надежному применению решений к схожим задачам с минимальными изменениями, что выявляет ограничения в их способности к математическому рассуждению. В данной статье мы исследуем устойчивость математического рассуждения в VLMs и оцениваем их производительность при различных вариантах одного и того же вопроса, таких как изменения числовых значений или графиков функций.

Предыдущие исследования

Множество бенчмарков было разработано для оценки способности VLMs к математическому рассуждению, включая MATHVISTA, MATH-V и MATHVERSE. Эти бенчмарки, однако, содержат только статические наборы задач и не могут эффективно оценивать устойчивость рассуждения моделей. Мы предлагаем новый динамический визуальный математический бенчмарк, DYNAMATH, для более глубокой оценки.

DYNAMATH: Динамический бенчмарк

DYNAMATH представляет собой набор из 501 высококачественных задач-основ (seed questions), каждая из которых представлена в виде программы на Python. Эти программы позволяют автоматически генерировать большое количество конкретных вопросов с различными визуальными и текстовыми вариациями. Бенчмарк охватывает множество математических тем, включая планиметрию, стереометрию, аналитическую геометрию, алгебру, тесты на логику, теорию графов, статистику, научные диаграммы и арифметику.

Сбор данных

Семена вопросов: Взяты из существующих визуальных математических наборов данных и общедоступных онлайн-ресурсов.
Генерация вопросов: Каждый вопрос-семя преобразуется в программу, которая генерирует конкретные варианты вопросов с различными условиями.

Виды вариаций

Числовые значения: Изменение числовых величин для оценки способности модели к арифметическим операциям.
Геометрические трансформации: Изменение формы, углов, размеров и положений объектов.
Типы функций: Варьирование различных математических функций.
Цветовые вариации: Изменение цвета объектов или кривых.
Символические замены: Изменение математических операций.
Структура графа: Изменение расположения графов, сетей или других структурных представлений.
Реальные контексты: Варьирование реальных сценариев, таких как календари или задачи на время.

Статистика данных

DYNAMATH включает девять математических тем, охватывая различные уровни сложности от начальной школы до университетского курса. Большинство вопросов (64.7%) являются свободными, что позволяет более точно оценивать способности модели.

Методология оценки

Для оценки используются две метрики: средняя точность (A_avg) и наихудшая точность (A_wst), а также устойчивость рассуждения (RR), которая измеряет соотношение между средней и наихудшей точностью. Мы также оцениваем повторяемость ответов модели (RC) для проверки их уверенности.

Экспериментальные результаты

Мы провели обширные эксперименты с 14 ведущими VLMs, включая закрытые (например, GPT-4o, Gemini Pro, Claude-3.5 Sonnet) и открытые (например, Qwen2-VL, InternVL2, LLaVA) модели.

Общие результаты

Средняя точность: Лучшие результаты показали закрытые модели, такие как Claude-3.5 с 64.8% точности, однако все модели значительно отстают от человеческого уровня (75.8%).
Наихудшая точность: Все модели демонстрируют значительное снижение точности при вариациях вопросов, что указывает на недостаточную устойчивость рассуждений.

Устойчивость рассуждения

Различия между моделями: Закрытые модели, такие как GPT-4o и Claude-3.5, показывают наибольшую устойчивость, но даже они не достигают 50% от своей средней точности в наихудших случаях.
Влияние тематики: Модели более устойчивы в арифметике и алгебре, но менее устойчивы в задачах на логику и аналитической геометрии.

Консистентные ошибки

Мы наблюдали случаи, когда модели последовательно ошибаются на определенных вариантах вопросов, несмотря на то, что они могут правильно ответить на другие варианты того же вопроса. Это указывает на проблемы в восприятии и интерпретации визуальных данных.

Заключение

DYNAMATH выявляет значительные ограничения в устойчивости математического рассуждения современных VLMs. Наши результаты подчеркивают необходимость дальнейших исследований и разработок для улучшения способности моделей к обобщению и надежному решению задач с визуальным контекстом. В будущем мы планируем использовать DYNAMATH для обучения моделей с использованием методов противостоящего обучения или обучения с подкреплением от обратной связи человека, чтобы повысить их устойчивость и точность.

Статья на arxiv Оригинал pdf vision language models

Ай Дайджест