VideoEspresso: Разработка и применение большого набора данных для видеоанализа с использованием цепочки мыслей

В последние годы большие визуально-языковые модели (LVLMs) значительно улучшили понимание мультимодальных данных, но их способность к видеоанализу остается ограниченной из-за недостатка высококачественных и масштабных наборов данных. В этом контексте, команда исследователей из различных университетов и лабораторий разработала VideoEspresso — новый набор данных, предназначенный для улучшения видеоанализа с помощью подхода, основанного на цепочке мыслей (Chain-of-Thought, CoT).

Визуально-языковые модели (LVLMs) объединяют визуальную и текстовую информацию для выполнения задач, таких как генерация описаний изображений и ответы на вопросы по изображениям. Однако, когда речь заходит о видео, где требуется понимание временных и пространственных связей, существующие модели часто сталкиваются с трудностями. Основная проблема заключается в отсутствии наборов данных, которые бы обеспечивали глубокий анализ видео с учетом всех его аспектов.

VideoEspresso представляет собой попытку решить эту проблему, предлагая:

Автоматизированный процесс создания вопросно-ответных пар (QA pairs) на основе видео.
Использование цепочки мыслей для улучшения логического мышления модели при анализе видео.
Гибридный подход к обучению LVLMs, который включает в себя выбор ключевых кадров и двухэтапное обучение с использованием CoT.

Создание набора данных VideoEspresso

Сбор и обработка данных

VideoEspresso начинается с сбора необработанных видео из различных источников, таких как новости, фильмы, документальные фильмы и образовательное содержание. Затем происходит следующий процесс:

Сокращение избыточности: Видео анализируются для удаления повторяющихся кадров, что позволяет сократить объем данных, сохраняя при этом важные детали.
Семантическое извлечение информации: Используя LVLMs, видео кадры преобразуются в текстовые описания, которые затем обрабатываются для удаления семантически похожих кадров.
Группировка кадров: Оставшиеся кадры группируются для сохранения последовательности и контекста, что важно для создания сложных вопросов и ответов.

Построение вопросно-ответных пар

Для создания QA пар используется GPT-4o, который на основе групп кадров генерирует вопросы, требующие сложного рассуждения. Важно отметить, что:

Вопросы должны использовать информацию из нескольких кадров.
Ответы должны быть логически связаны с видео и не содержать субъективных или чрезмерно открытых вопросов.

Аннотация цепочки мыслей

VideoEspresso вводит концепцию CoT аннотаций, где:

Выбор ключевых элементов: Из каждого кадра извлекаются ключевые объекты, которые затем связываются в логическую цепочку для обоснования ответов.
Пространственная и временная аннотация: Используются инструменты для обозначения пространственных и временных характеристик ключевых элементов, что помогает моделям лучше понимать контекст и последовательность событий.

Гибридное сотрудничество LVLMs для видеоанализа

Для эффективного использования VideoEspresso разработана гибридная структура, состоящая из:

Tiny LVLM: Маленькая модель, которая выбирает ключевые кадры, релевантные вопросу.
Fine-Grained Reasoning LVLM: Модель, которая выполняет детальный анализ на основе выбранных кадров, используя CoT для формирования ответа.

Обучение моделей

Обучение проходит в два этапа:

Этап 1: Модель обучается на извлечении доказательств из видео, что помогает ей понимать, какие части видео важны для ответа на вопрос.
Этап 2: Модель обучается на использовании этих доказательств для непосредственного ответа на вопросы, что улучшает точность и логическую связность ответов.

Эксперименты и результаты

VideoEspresso был оценен на 14 задачах, включая анализ причинно-следственных связей, динамику событий, тематический анализ и др. Результаты показали, что модели, обученные на VideoEspresso, превосходят существующие базовые модели по большинству задач, демонстрируя превосходство в видеоанализе.

Объективная оценка

Модели оценивались по точности ответов на вопросы, где наш подход показал лучшие результаты по сравнению с другими LVLMs.

Субъективная оценка

Кроме того, оценивалась логичность, фактичность, точность описания и краткость ответов, где наш метод также показал значительное улучшение.

Заключение

VideoEspresso представляет собой значительный шаг вперед в разработке наборов данных для видеоанализа, предлагая инновационные подходы к созданию и аннотации данных. Это позволяет моделям лучше понимать сложные временные и пространственные связи в видео, что открывает новые возможности для развития и применения LVLMs в различных областях, от образования до безопасности.

Статья на arxiv Оригинал pdf framework cot annotation

Ай Дайджест