Свежая выжимка ml и AI статей - каждый день
Совсем недавно мультимодальные большие языковые модели (MLLM), такие как GPT-4o, Gemini 1.5 Pro и Reka Core, значительно расширили свои возможности, включая в себя визуальные и аудиомодальности. Эти модели демонстрируют впечатляющие результаты в различных аудиовизуальных приложениях. Однако, как показывает наш тест DeafTest, MLLM часто сталкиваются с трудностями при выполнении простых задач, которые для человека кажутся тривиальными, например, определение, какой из двух звуков громче, или какой звук имеет более высокий тон.
Вдохновленные этими наблюдениями, мы представляем AV-Odyssey Bench — обширную аудиовизуальную платформу для оценки способности MLLM действительно понимать аудиовизуальную информацию. Этот бенчмарк охватывает 4555 тщательно разработанных задач, каждая из которых включает текстовые, визуальные и аудиокомпоненты. Для успешного вывода ответов модели должны эффективно использовать подсказки как из визуальных, так и из аудиовходов.
Мультимодальные большие языковые модели представляют собой новый этап в развитии искусственного интеллекта. Они объединяют текстовые, визуальные и аудиоданные, что позволяет им решать более сложные задачи, чем традиционные модели, которые работают только с одним типом данных. Например, Vision-Language Models (VLM) уже продемонстрировали свои возможности в области визуального восприятия и могут выполнять такие задачи, как подсчет объектов на изображениях, решение геометрических задач и обработка табличных данных.
С добавлением аудиомодальности, такие модели, как GPT-4o и Gemini 1.5, расширили свои горизонты, что дало возможность решать задачи, связанные с автоматическим распознаванием речи (ASR), автоматическим переводом речи (AST) и аудиовизуальным аннотированием. Однако большинство предыдущих мультимодальных бенчмарков сосредоточены на визуальном решении задач, что приводит к недостаточной оценке аудиовизуального понимания.
Чтобы оценить базовые аудиовосприятия MLLM, мы разработали DeafTest — набор из четырех простых аудиозадач. Эти задачи включают:
Наша гипотеза заключалась в том, что MLLM могут не справляться с этими базовыми задачами в силу своих тренировочных целей, которые в основном сосредоточены на высокоуровневом семантическом соответствии между различными модальностями.
Результаты тестирования показали, что, несмотря на способность распознавать сложный речевой контент, MLLM не достигают ожидаемых результатов в задачах подсчета звуков. Лучший результат среди протестированных моделей составил лишь 81%, в то время как люди могут легко достичь 100%. Более того, модели оказались нечувствительными к громкости звуков, что также указывает на их ограничения.
AV-Odyssey Bench — это всеобъемлющий аудиовизуальный бенчмарк, разработанный для проверки MLLM на способности интегрировать информацию из различных модальностей. Он включает 4555 вопросов, охватывающих 26 различных задач, каждая из которых построена с учетом трех критических компонентов: текста, изображения/видео и аудиоклипа.
Задачи в AV-Odyssey Bench делятся на несколько категорий, включая:
Для создания AV-Odyssey Bench мы использовали два основных подхода:
В результате тестирования MLLM на AV-Odyssey Bench мы сделали несколько ключевых выводов:
В этой работе мы представили AV-Odyssey Bench как комплексный инструмент для оценки возможностей MLLM в понимании аудиовизуальной информации. Мы выявили текущие ограничения MLLM и надеемся, что AV-Odyssey Bench станет ценным ресурсом для сообщества, способствуя развитию MLLM и в конечном итоге приведет к созданию более мощных и человечных систем аудиовизуального понимания.