EgoVid-5M: Революция в Генерации Эгоцентрических Видео

В современном мире технологии видео-генерации становятся все более значимыми, особенно в контексте создания виртуальных реальностей, улучшения игровых процессов и разработки систем автономного вождения. Одним из наиболее перспективных направлений является генерация видео с эгоцентрической перспективы, где камера фиксирует мир с точки зрения человека. Однако, несмотря на прогресс в этой области, существует значительный дефицит качественных данных для обучения таких систем. В этом контексте появляется EgoVid-5M — первый в своем роде масштабный датасет, специально разработанный для генерации эгоцентрических видео.

EgoVid-5M: Обзор и Особенности

EgoVid-5M представляет собой уникальный датасет, который включает в себя 5 миллионов видео-клипов, записанных с эгоцентрической точки зрения. Он разработан для решения основных проблем, связанных с динамичностью эгоцентрических видео, их разнообразием действий и сложностью сцен. Вот основные его особенности:

Высокое Качество: Видео в EgoVid-5M имеют разрешение 1080p, что обеспечивает детализацию и качество, необходимые для эффективного обучения моделей генерации видео.
Подробные Аннотации: Каждое видео снабжено подробными аннотациями, включающими как низкоуровневый кинематический контроль (например, движения камеры), так и высокоруровневые текстовые описания действий. Это позволяет моделям не только понимать, что происходит в видео, но и как это происходит.
Очистка Данных: Для обеспечения качества и целостности данных, EgoVid-5M проходит через строгий процесс очистки. Он включает в себя выравнивание действий с содержанием видео, оценку силы движения и согласованности кадров.
Широкое Покрытие Сцен: Датасет охватывает множество сценариев, от бытовых до профессиональных, включая домашние условия, наружные виды, офисные действия, спортивные мероприятия и сложные операции.

Разработка и Аннотация Данных

Аннотация Кинематики

Для точного описания движений в эгоцентрических видео используется метод визуально-инерциальной одометрии (VIO). Этот процесс включает в себя:

Использование ParticleSfM для получения масштабно-неоднозначных позиций камеры, которые затем интегрируются с сигналами IMU (инерциальные измерительные блоки) для получения точных и масштабированных позиций камеры.
Фильтрация шума и гравитации с помощью фильтров Баттерворта для улучшения качества данных.
Калибровка и оптимизация с использованием фильтра Калмана для слияния визуальных и инерционных данных.

Текстовые Описания

Для создания текстовых аннотаций используются мультимодальные большие языковые модели (MLLM) в сочетании с традиционными LLM. Это позволяет:

Генерировать детализированные описания действий, происходящих в видео, включая контекст и специфические детали.
Обеспечивать семантическую согласованность между текстом и визуальным содержанием видео.

Очистка Данных

Процесс очистки данных в EgoVid-5M включает несколько ключевых этапов:

Согласованность текста и видео: Использование CLIP и EgoVideo для оценки соответствия текстовых описаний и видео-контента.
Согласованность между кадрами: Анализ семантической консистентности между кадрами для улучшения качества обучения.
Плавность движения: Измерение изменений в трансляции и вращении для оценки плавности движения камеры.
Сила движения: Использование оптического потока для определения интенсивности движения в видео.
Ясность видео: Оценка визуальной четкости и реализма сцен с помощью DOVER.

EgoDreamer: Модель Генерации Эгоцентрических Видео

На основе датасета EgoVid-5M была разработана модель EgoDreamer, которая позволяет генерировать эгоцентрические видео, управляемые как текстовыми описаниями действий, так и кинематическими сигналами. EgoDreamer включает в себя:

Унифицированный Энкодер Действий (UAE): Для одновременного кодирования низкоуровневых кинематических сигналов и высокоруровневых текстовых описаний.
Адаптивное Выравнивание (AA): Для интеграции сигналов управления в процесс генерации видео.

Эксперименты и Результаты

Эксперименты с EgoVid-5M показали, что он значительно улучшает качество генерации эгоцентрических видео, повышая согласованность семантики, действий и визуального качества. EgoDreamer демонстрирует способность создавать видео, которые точно отражают описанные действия и кинематические команды, обеспечивая при этом высокую степень реализма и детализации.

Заключение

EgoVid-5M и EgoDreamer представляют собой значительный шаг вперед в области генерации эгоцентрических видео. Этот датасет и модель открывают новые горизонты для исследований в области виртуальной реальности, автономных систем и игровой индустрии, предоставляя исследователям и разработчикам мощный инструмент для создания более реалистичных и интерактивных визуальных симуляций.

Статья на arxiv Оригинал pdf generation annotations dataset

Ай Дайджест