Свежая выжимка ml и AI статей - каждый день
В последние годы большие визуально-языковые модели (LVLMs) значительно улучшили понимание мультимодальных данных, но их способность к видеоанализу остается ограниченной из-за недостатка высококачественных и масштабных наборов данных. В этом контексте, команда исследователей из различных университетов и лабораторий разработала VideoEspresso — новый набор данных, предназначенный для улучшения видеоанализа с помощью подхода, основанного на цепочке мыслей (Chain-of-Thought, CoT).
Визуально-языковые модели (LVLMs) объединяют визуальную и текстовую информацию для выполнения задач, таких как генерация описаний изображений и ответы на вопросы по изображениям. Однако, когда речь заходит о видео, где требуется понимание временных и пространственных связей, существующие модели часто сталкиваются с трудностями. Основная проблема заключается в отсутствии наборов данных, которые бы обеспечивали глубокий анализ видео с учетом всех его аспектов.
VideoEspresso представляет собой попытку решить эту проблему, предлагая:
VideoEspresso начинается с сбора необработанных видео из различных источников, таких как новости, фильмы, документальные фильмы и образовательное содержание. Затем происходит следующий процесс:
Сокращение избыточности: Видео анализируются для удаления повторяющихся кадров, что позволяет сократить объем данных, сохраняя при этом важные детали.
Семантическое извлечение информации: Используя LVLMs, видео кадры преобразуются в текстовые описания, которые затем обрабатываются для удаления семантически похожих кадров.
Группировка кадров: Оставшиеся кадры группируются для сохранения последовательности и контекста, что важно для создания сложных вопросов и ответов.
Для создания QA пар используется GPT-4o, который на основе групп кадров генерирует вопросы, требующие сложного рассуждения. Важно отметить, что:
VideoEspresso вводит концепцию CoT аннотаций, где:
Для эффективного использования VideoEspresso разработана гибридная структура, состоящая из:
Обучение проходит в два этапа:
Этап 1: Модель обучается на извлечении доказательств из видео, что помогает ей понимать, какие части видео важны для ответа на вопрос.
Этап 2: Модель обучается на использовании этих доказательств для непосредственного ответа на вопросы, что улучшает точность и логическую связность ответов.
VideoEspresso был оценен на 14 задачах, включая анализ причинно-следственных связей, динамику событий, тематический анализ и др. Результаты показали, что модели, обученные на VideoEspresso, превосходят существующие базовые модели по большинству задач, демонстрируя превосходство в видеоанализе.
Модели оценивались по точности ответов на вопросы, где наш подход показал лучшие результаты по сравнению с другими LVLMs.
Кроме того, оценивалась логичность, фактичность, точность описания и краткость ответов, где наш метод также показал значительное улучшение.
VideoEspresso представляет собой значительный шаг вперед в разработке наборов данных для видеоанализа, предлагая инновационные подходы к созданию и аннотации данных. Это позволяет моделям лучше понимать сложные временные и пространственные связи в видео, что открывает новые возможности для развития и применения LVLMs в различных областях, от образования до безопасности.