Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

EgoVid-5M: Революция в Генерации Эгоцентрических Видео

В современном мире технологии видео-генерации становятся все более значимыми, особенно в контексте создания виртуальных реальностей, улучшения игровых процессов и разработки систем автономного вождения. Одним из наиболее перспективных направлений является генерация видео с эгоцентрической перспективы, где камера фиксирует мир с точки зрения человека. Однако, несмотря на прогресс в этой области, существует значительный дефицит качественных данных для обучения таких систем. В этом контексте появляется EgoVid-5M — первый в своем роде масштабный датасет, специально разработанный для генерации эгоцентрических видео.

EgoVid-5M: Обзор и Особенности

EgoVid-5M представляет собой уникальный датасет, который включает в себя 5 миллионов видео-клипов, записанных с эгоцентрической точки зрения. Он разработан для решения основных проблем, связанных с динамичностью эгоцентрических видео, их разнообразием действий и сложностью сцен. Вот основные его особенности:

  • Высокое Качество: Видео в EgoVid-5M имеют разрешение 1080p, что обеспечивает детализацию и качество, необходимые для эффективного обучения моделей генерации видео.

  • Подробные Аннотации: Каждое видео снабжено подробными аннотациями, включающими как низкоуровневый кинематический контроль (например, движения камеры), так и высокоруровневые текстовые описания действий. Это позволяет моделям не только понимать, что происходит в видео, но и как это происходит.

  • Очистка Данных: Для обеспечения качества и целостности данных, EgoVid-5M проходит через строгий процесс очистки. Он включает в себя выравнивание действий с содержанием видео, оценку силы движения и согласованности кадров.

  • Широкое Покрытие Сцен: Датасет охватывает множество сценариев, от бытовых до профессиональных, включая домашние условия, наружные виды, офисные действия, спортивные мероприятия и сложные операции.

Разработка и Аннотация Данных

Аннотация Кинематики

Для точного описания движений в эгоцентрических видео используется метод визуально-инерциальной одометрии (VIO). Этот процесс включает в себя:

  • Использование ParticleSfM для получения масштабно-неоднозначных позиций камеры, которые затем интегрируются с сигналами IMU (инерциальные измерительные блоки) для получения точных и масштабированных позиций камеры.
  • Фильтрация шума и гравитации с помощью фильтров Баттерворта для улучшения качества данных.
  • Калибровка и оптимизация с использованием фильтра Калмана для слияния визуальных и инерционных данных.

Текстовые Описания

Для создания текстовых аннотаций используются мультимодальные большие языковые модели (MLLM) в сочетании с традиционными LLM. Это позволяет:

  • Генерировать детализированные описания действий, происходящих в видео, включая контекст и специфические детали.
  • Обеспечивать семантическую согласованность между текстом и визуальным содержанием видео.

Очистка Данных

Процесс очистки данных в EgoVid-5M включает несколько ключевых этапов:

  • Согласованность текста и видео: Использование CLIP и EgoVideo для оценки соответствия текстовых описаний и видео-контента.
  • Согласованность между кадрами: Анализ семантической консистентности между кадрами для улучшения качества обучения.
  • Плавность движения: Измерение изменений в трансляции и вращении для оценки плавности движения камеры.
  • Сила движения: Использование оптического потока для определения интенсивности движения в видео.
  • Ясность видео: Оценка визуальной четкости и реализма сцен с помощью DOVER.

EgoDreamer: Модель Генерации Эгоцентрических Видео

На основе датасета EgoVid-5M была разработана модель EgoDreamer, которая позволяет генерировать эгоцентрические видео, управляемые как текстовыми описаниями действий, так и кинематическими сигналами. EgoDreamer включает в себя:

  • Унифицированный Энкодер Действий (UAE): Для одновременного кодирования низкоуровневых кинематических сигналов и высокоруровневых текстовых описаний.
  • Адаптивное Выравнивание (AA): Для интеграции сигналов управления в процесс генерации видео.

Эксперименты и Результаты

Эксперименты с EgoVid-5M показали, что он значительно улучшает качество генерации эгоцентрических видео, повышая согласованность семантики, действий и визуального качества. EgoDreamer демонстрирует способность создавать видео, которые точно отражают описанные действия и кинематические команды, обеспечивая при этом высокую степень реализма и детализации.

Заключение

EgoVid-5M и EgoDreamer представляют собой значительный шаг вперед в области генерации эгоцентрических видео. Этот датасет и модель открывают новые горизонты для исследований в области виртуальной реальности, автономных систем и игровой индустрии, предоставляя исследователям и разработчикам мощный инструмент для создания более реалистичных и интерактивных визуальных симуляций.