TOMATO: Оценка Визуально-Временных Способностей Мультимодальных Фундаментальных Моделей

В мире искусственного интеллекта (AI) и машинного обучения (ML), мультимодальные фундаментальные модели (MFMs) представляют собой новый фронтир, способный обрабатывать и интерпретировать данные из различных источников, включая видео. Однако, несмотря на впечатляющие результаты, которые эти модели демонстрируют на существующих бенчмарках, возникает вопрос: насколько хорошо они действительно справляются с визуально-временным рассуждением? В этом исследовании мы рассматриваем, как существующие бенчмарки могут переоценивать способности MFMs к визуально-временному рассуждению, и предлагаем новый бенчмарк, названный TOMATO, для более точной оценки.

Визуально-временное рассуждение – это процесс понимания и интерпретации последовательности визуальной информации во времени, включая распознавание паттернов движения, изменений в сцене и последовательность событий. Современные методы для решения задач визуально-временного рассуждения часто основаны на использовании MFMs, которые показали выдающиеся результаты на различных бенчмарках. Однако, наше исследование показывает, что многие вопросы в этих бенчмарках могут быть решены с использованием одного, нескольких или даже неупорядоченных кадров, что указывает на возможную переоценку способностей моделей.

Существующие Бенчмарки

Мы проанализировали четыре широко используемых бенчмарка для визуально-временного рассуждения: VITATECS, MVBench, TempCompass и ReXTime. В этих бенчмарках мы обнаружили, что модели могут использовать "обходные пути" для получения правильного ответа, не полагаясь на истинное понимание временного контекста видео.

Примеры из бенчмарков:

VITATECS: "Что делают женщины-спортсменки?" (Ответ может быть получен из одного кадра).
MVBench: "Что находится за спиной Моники, когда она разговаривает с Россом?" (Ответ может быть получен из одного кадра).
TempCompass: "В каком направлении вращается теннисный мяч?" (Ответ может быть получен из нескольких неупорядоченных кадров).
ReXTime: "Почему женщина готовит ингредиенты и утварь?" (Ответ может быть получен из одного кадра).

Принципы Оценки

Для систематического анализа задач визуально-временного рассуждения мы предложили три принципа с соответствующими метриками:

Прирост Многокадровости (Multi-Frame Gain): Измеряет, насколько задача становится более решаемой при использовании нескольких кадров по сравнению с одним.
Чувствительность к Порядку Кадров (Frame Order Sensitivity): Оценивает, насколько важен правильный порядок кадров для решения задачи.
Разнообразие Информации в Кадрах (Frame Information Disparity): Измеряет, насколько равномерно распределена информация по кадрам, чтобы избежать зависимости от одного или нескольких кадров.

TOMATO: Новый Бенчмарк

TOMATO (Temporal Reasoning Multimodal Evaluation) – это новый бенчмарк, разработанный для строгой оценки способностей MFMs к визуально-временному рассуждению. Он включает в себя:

1484 тщательно подобранных вопросов, охватывающих шесть задач визуально-временного рассуждения (например, подсчет действий, направление, вращение, форма и тенденция, скорость и частота, визуальные подсказки).
1417 видео, включая 805 самозаписанных и сгенерированных видео, охватывающих реальные, человеческие и симулированные сценарии.

Задачи в TOMATO

Вращение: Определение направления вращения объекта.
Направление: Определение направления движения объекта.
Скорость и Частота: Обнаружение изменений в скорости движения или частоте повторяющихся действий.
Форма и Тенденция: Анализ траектории объекта, его формы или общей тенденции движения.
Визуальные Подсказки: Определение ключевых визуальных сигналов для определения последовательности или времени действий.
Подсчет Действий: Подсчет количества выполненных определенных действий.

Результаты Оценки

Наши оценки показали, что лучшая модель достигла только 37.9% точности, что значительно ниже человеческой точности в 95.2%. Это указывает на существенный разрыв между возможностями моделей и человеческим восприятием. Кроме того, анализ выявил фундаментальные ограничения в текущих MFMs:

Неспособность интерпретировать кадры как непрерывную последовательность: Модели часто распознают события в изолированных кадрах, но не могут интерпретировать их как часть непрерывного потока.
Перенасыщенность общим знанием: Модели часто полагаются на общее знание, а не на визуальный ввод, что приводит к ошибкам в интерпретации.
Чувствительность к шуму: Модели легко сбиваются с толку шумной информацией в кадрах.

Заключение

TOMATO предлагает более строгую оценку способностей MFMs к визуально-временному рассуждению, подчеркивая, что существующие бенчмарки могут переоценивать эти способности. Мы надеемся, что этот бенчмарк станет важным инструментом для оценки следующих поколений MFMs и вдохновит сообщество на разработку систем ИИ, способных лучше понимать динамику человеческого мира через видео.

Статья на arxiv Оригинал pdf benchmark multimodal temporal

Ай Дайджест