Свежая выжимка ml и AI статей - каждый день
В современном мире технологии видео-генерации становятся все более значимыми, особенно в контексте создания виртуальных реальностей, улучшения игровых процессов и разработки систем автономного вождения. Одним из наиболее перспективных направлений является генерация видео с эгоцентрической перспективы, где камера фиксирует мир с точки зрения человека. Однако, несмотря на прогресс в этой области, существует значительный дефицит качественных данных для обучения таких систем. В этом контексте появляется EgoVid-5M — первый в своем роде масштабный датасет, специально разработанный для генерации эгоцентрических видео.
EgoVid-5M представляет собой уникальный датасет, который включает в себя 5 миллионов видео-клипов, записанных с эгоцентрической точки зрения. Он разработан для решения основных проблем, связанных с динамичностью эгоцентрических видео, их разнообразием действий и сложностью сцен. Вот основные его особенности:
Высокое Качество: Видео в EgoVid-5M имеют разрешение 1080p, что обеспечивает детализацию и качество, необходимые для эффективного обучения моделей генерации видео.
Подробные Аннотации: Каждое видео снабжено подробными аннотациями, включающими как низкоуровневый кинематический контроль (например, движения камеры), так и высокоруровневые текстовые описания действий. Это позволяет моделям не только понимать, что происходит в видео, но и как это происходит.
Очистка Данных: Для обеспечения качества и целостности данных, EgoVid-5M проходит через строгий процесс очистки. Он включает в себя выравнивание действий с содержанием видео, оценку силы движения и согласованности кадров.
Широкое Покрытие Сцен: Датасет охватывает множество сценариев, от бытовых до профессиональных, включая домашние условия, наружные виды, офисные действия, спортивные мероприятия и сложные операции.
Для точного описания движений в эгоцентрических видео используется метод визуально-инерциальной одометрии (VIO). Этот процесс включает в себя:
Для создания текстовых аннотаций используются мультимодальные большие языковые модели (MLLM) в сочетании с традиционными LLM. Это позволяет:
Процесс очистки данных в EgoVid-5M включает несколько ключевых этапов:
На основе датасета EgoVid-5M была разработана модель EgoDreamer, которая позволяет генерировать эгоцентрические видео, управляемые как текстовыми описаниями действий, так и кинематическими сигналами. EgoDreamer включает в себя:
Эксперименты с EgoVid-5M показали, что он значительно улучшает качество генерации эгоцентрических видео, повышая согласованность семантики, действий и визуального качества. EgoDreamer демонстрирует способность создавать видео, которые точно отражают описанные действия и кинематические команды, обеспечивая при этом высокую степень реализма и детализации.
EgoVid-5M и EgoDreamer представляют собой значительный шаг вперед в области генерации эгоцентрических видео. Этот датасет и модель открывают новые горизонты для исследований в области виртуальной реальности, автономных систем и игровой индустрии, предоставляя исследователям и разработчикам мощный инструмент для создания более реалистичных и интерактивных визуальных симуляций.