Свежая выжимка ml и AI статей - каждый день
В последние годы крупномасштабные мультимодальные модели (LMMs) с продвинутыми возможностями анализа видео, такие как GPT-4o, Gemini-1.5-Pro, Aria, Qwen2-VL и LLaVa-Video, привлекли значительное внимание в сообществе искусственного интеллекта. Эти модели расширяют границы традиционных моделей, работающих с изображениями, предоставляя возможность обрабатывать динамические данные видео, что делает их идеальными для анализа сложных видео последовательностей. Однако большинство текущих методов оценки этих моделей ограничены традиционными подходами, такими как ответы на многовариантные вопросы в бенчмарках, которые не в полной мере отражают сложные требования реальных пользователей.
В этом контексте мы представляем VideoAutoArena — автоматизированную арену для оценки LMMs в анализе видео, вдохновленную платформой LMSYS Chatbot Arena. VideoAutoArena использует симуляцию пользователя для генерации открытых, адаптивных вопросов, которые тщательно оценивают производительность моделей в понимании видео. Этот бенчмарк предлагает масштабируемую и эффективную альтернативу дорогостоящим и трудоемким человеческим аннотациям, обеспечивая при этом точную и справедливую оценку моделей.
Симуляция пользователя: Используя LMMs в качестве агентов, VideoAutoArena генерирует вопросы, которые имитируют запросы реальных пользователей, интересующихся видео контентом. Это включает в себя определение персон, которые могут быть заинтересованы в видео, и создание вопросов, соответствующих их интересам.
Парные битвы: Два случайно выбранных LMMs конкурируют, отвечая на один и тот же вопрос, сформулированный на основе видео. Это позволяет сравнить качество ответов и определить, какой из моделей предоставляет лучший ответ.
Автоматическое судейство: Вместо человеческих аннотаторов, используется система автоматического судейства, которая оценивает ответы моделей по нескольким критериям, включая точность, релевантность, полезность и следование инструкциям.
Эволюция вопросов на основе ошибок: Вопросы усложняются на основе анализа ответов моделей, чтобы выявить слабые места и улучшить их способности к анализу видео.
В экспериментах участвовали 11 ведущих LMMs, включая как проприетарные, так и открытые модели. Каждое видео было равномерно сэмплировано для предоставления 64 кадров в качестве входных данных для генерации ответов, а для судейства использовались 128 кадров.
В одном из примеров битвы между Aria и LLaVa-Video-72B, Aria предоставила более подробный и полезный ответ на вопрос о символике флага Гватемалы, что позволило ей победить в этом сравнении.
VideoAutoArena представляет собой инновационный подход к оценке LMMs в анализе видео, предлагая более реалистичную и масштабируемую альтернативу традиционным методам. Используя симуляцию пользователя, автоматическое судейство и эволюцию вопросов на основе ошибок, этот бенчмарк не только обеспечивает глубокое понимание способностей моделей, но и предлагает направления для их дальнейшего улучшения. Вместе с VideoAutoBench, который упрощает процесс оценки, VideoAutoArena открывает новые возможности для исследований и разработки в области видео анализа с использованием LMMs.