Свежая выжимка ml и AI статей - каждый день
В мире искусственного интеллекта (AI) и машинного обучения (ML), мультимодальные фундаментальные модели (MFMs) представляют собой новый фронтир, способный обрабатывать и интерпретировать данные из различных источников, включая видео. Однако, несмотря на впечатляющие результаты, которые эти модели демонстрируют на существующих бенчмарках, возникает вопрос: насколько хорошо они действительно справляются с визуально-временным рассуждением? В этом исследовании мы рассматриваем, как существующие бенчмарки могут переоценивать способности MFMs к визуально-временному рассуждению, и предлагаем новый бенчмарк, названный TOMATO, для более точной оценки.
Визуально-временное рассуждение – это процесс понимания и интерпретации последовательности визуальной информации во времени, включая распознавание паттернов движения, изменений в сцене и последовательность событий. Современные методы для решения задач визуально-временного рассуждения часто основаны на использовании MFMs, которые показали выдающиеся результаты на различных бенчмарках. Однако, наше исследование показывает, что многие вопросы в этих бенчмарках могут быть решены с использованием одного, нескольких или даже неупорядоченных кадров, что указывает на возможную переоценку способностей моделей.
Мы проанализировали четыре широко используемых бенчмарка для визуально-временного рассуждения: VITATECS, MVBench, TempCompass и ReXTime. В этих бенчмарках мы обнаружили, что модели могут использовать "обходные пути" для получения правильного ответа, не полагаясь на истинное понимание временного контекста видео.
Для систематического анализа задач визуально-временного рассуждения мы предложили три принципа с соответствующими метриками:
Прирост Многокадровости (Multi-Frame Gain): Измеряет, насколько задача становится более решаемой при использовании нескольких кадров по сравнению с одним.
Чувствительность к Порядку Кадров (Frame Order Sensitivity): Оценивает, насколько важен правильный порядок кадров для решения задачи.
Разнообразие Информации в Кадрах (Frame Information Disparity): Измеряет, насколько равномерно распределена информация по кадрам, чтобы избежать зависимости от одного или нескольких кадров.
TOMATO (Temporal Reasoning Multimodal Evaluation) – это новый бенчмарк, разработанный для строгой оценки способностей MFMs к визуально-временному рассуждению. Он включает в себя:
Наши оценки показали, что лучшая модель достигла только 37.9% точности, что значительно ниже человеческой точности в 95.2%. Это указывает на существенный разрыв между возможностями моделей и человеческим восприятием. Кроме того, анализ выявил фундаментальные ограничения в текущих MFMs:
TOMATO предлагает более строгую оценку способностей MFMs к визуально-временному рассуждению, подчеркивая, что существующие бенчмарки могут переоценивать эти способности. Мы надеемся, что этот бенчмарк станет важным инструментом для оценки следующих поколений MFMs и вдохновит сообщество на разработку систем ИИ, способных лучше понимать динамику человеческого мира через видео.