EgoVid-5M: Революция в Генерации Эгоцентрических Видео
Генерация видео вышла на передовые позиции как многообещающий инструмент для моделирования мира, используя визуальные данные для воспроизведения реальных окружающих сред. В этом контексте, генерация эгоцентрического видео, сосредоточенная на человеческой перспективе, обладает значительным потенциалом для улучшения приложений в виртуальной реальности, дополненной реальности и играх. Однако создание эгоцентрических видео представляет значительные вызовы из-за динамической природы эгоцентрических точек зрения, сложного разнообразия действий и обширного многообразия сцен. Существующие наборы данных неадекватны для эффективного решения этих проблем. Чтобы преодолеть этот разрыв, мы представляем EgoVid-5M, первый высококачественный набор данных, специально созданный для генерации эгоцентрических видео. EgoVid-5M включает 5 миллионов эгоцентрических видеоклипов и обогащен подробными аннотациями действий, включая тонкую кинематическую настройку и высококачественные текстовые описания. Для обеспечения целостности и удобства использования набора данных мы разработали сложный конвейер очистки данных, предназначенный для поддержания последовательности кадров, согласованности действий и плавности движений в эгоцентрических условиях. Более того, мы представляем EgoDreamer, который способен генерировать эгоцентрические видео, одновременно управляемые описаниями действий и кинематическими сигналами управления. Набор данных EgoVid-5M, связанные с ним аннотации действий и все метаданные по очистке данных будут выпущены для продвижения исследований в области генерации эгоцентрических видео.