Свежая выжимка ml и AI статей - каждый день
Современные модели видео-языкового взаимодействия (VLMs) демонстрируют значительный прогресс в решении задач, требующих понимания визуального контекста и математических рассуждений. Однако, несмотря на эти достижения, VLMs часто проявляют неспособность к надежному применению решений к схожим задачам с минимальными изменениями, что выявляет ограничения в их способности к математическому рассуждению. В данной статье мы исследуем устойчивость математического рассуждения в VLMs и оцениваем их производительность при различных вариантах одного и того же вопроса, таких как изменения числовых значений или графиков функций.
Множество бенчмарков было разработано для оценки способности VLMs к математическому рассуждению, включая MATHVISTA, MATH-V и MATHVERSE. Эти бенчмарки, однако, содержат только статические наборы задач и не могут эффективно оценивать устойчивость рассуждения моделей. Мы предлагаем новый динамический визуальный математический бенчмарк, DYNAMATH, для более глубокой оценки.
DYNAMATH представляет собой набор из 501 высококачественных задач-основ (seed questions), каждая из которых представлена в виде программы на Python. Эти программы позволяют автоматически генерировать большое количество конкретных вопросов с различными визуальными и текстовыми вариациями. Бенчмарк охватывает множество математических тем, включая планиметрию, стереометрию, аналитическую геометрию, алгебру, тесты на логику, теорию графов, статистику, научные диаграммы и арифметику.
DYNAMATH включает девять математических тем, охватывая различные уровни сложности от начальной школы до университетского курса. Большинство вопросов (64.7%) являются свободными, что позволяет более точно оценивать способности модели.
Для оценки используются две метрики: средняя точность (A_avg) и наихудшая точность (A_wst), а также устойчивость рассуждения (RR), которая измеряет соотношение между средней и наихудшей точностью. Мы также оцениваем повторяемость ответов модели (RC) для проверки их уверенности.
Мы провели обширные эксперименты с 14 ведущими VLMs, включая закрытые (например, GPT-4o, Gemini Pro, Claude-3.5 Sonnet) и открытые (например, Qwen2-VL, InternVL2, LLaVA) модели.
Мы наблюдали случаи, когда модели последовательно ошибаются на определенных вариантах вопросов, несмотря на то, что они могут правильно ответить на другие варианты того же вопроса. Это указывает на проблемы в восприятии и интерпретации визуальных данных.
DYNAMATH выявляет значительные ограничения в устойчивости математического рассуждения современных VLMs. Наши результаты подчеркивают необходимость дальнейших исследований и разработок для улучшения способности моделей к обобщению и надежному решению задач с визуальным контекстом. В будущем мы планируем использовать DYNAMATH для обучения моделей с использованием методов противостоящего обучения или обучения с подкреплением от обратной связи человека, чтобы повысить их устойчивость и точность.