SynCamMaster: Синхронизация генерации видео с нескольких камер

С недавними достижениями в области диффузионных моделей видео, технологии генерации видео значительно продвинулись вперед. В данной статье мы рассмотрим новую модель под названием SynCamMaster, которая нацелена на создание синхронизированных видео с нескольких камер, что является важной задачей для виртуальной съемки и других приложений. Эта модель обеспечивает динамическую согласованность контента с различных точек зрения, что делает ее уникальной по сравнению с существующими методами.

Современные диффузионные модели, такие как Video Diffusion Models, продемонстрировали выдающиеся способности в симуляции реальных динамик и поддержании 3D-согласованности. Однако большинство существующих методов сосредоточены на генерации видео с фиксированными объектами и ограниченными углами обзора. SynCamMaster, в отличие от них, нацелен на открытые сценарии и синхронную генерацию видео с произвольных точек зрения, используя 6 степеней свободы (DoF) для поз камер.

Задачи и вызовы

Основные вызовы, с которыми сталкивается SynCamMaster, включают:

Динамическая синхронизация: Необходимо поддерживать 4D-согласованность между различными точками зрения, что требует сложной обработки данных.
Недостаток обучающих данных: Существующие наборы данных с многокамерными видео имеют ограничения по качеству и разнообразию.

Для решения этих проблем команда разработчиков предложила модуль синхронизации многоугольников, который обеспечивает согласованность внешнего вида и геометрии между различными точками зрения.

Методология

Архитектура модели

SynCamMaster строится на основе предобученной модели текст-видео (T2V), которая включает в себя 3D-автоэнкодер и трансформер для диффузии. Основная идея заключается в том, чтобы интегрировать модуль синхронизации многоугольников в каждый блок трансформера, что позволяет обрабатывать пространственные и временные данные более эффективно.

Модуль синхронизации многоугольников

Модуль синхронизации многоугольников (MVS) принимает пространственные характеристики и экструзионные параметры камер в качестве входных данных и возвращает согласованные характеристики для последующей обработки. Этот модуль использует механизм внимания для агрегации данных с разных точек зрения, что позволяет добиться высокой степени согласованности между видео.

Сбор данных

Сбор данных для обучения модели представляет собой многоступенчатый процесс:

Многоугольные изображения: Используются изображения с разных точек зрения, собранные из существующих наборов данных.
Рендеринг видео: Рендеринг видео с использованием Unreal Engine с 3D-объектами и движениями для создания синхронизированных видео.
Общие видео: Включение видео без информации о камере для улучшения общей производительности.

Обучение модели

Обучение SynCamMaster происходит по гибридной схеме, которая сочетает в себе многоугольные изображения, одиночные видео и рендеренные видео. Это позволяет модели адаптироваться к различным сценариям и улучшает ее обобщающую способность.

Результаты

Синхронизация и визуальное качество

Синхронизация видео с различных точек зрения была оценена с использованием методов оценки качества, таких как FID (Fréchet Inception Distance) и FVD (Fréchet Video Distance). Результаты показывают, что SynCamMaster значительно превосходит существующие методы, достигая высокой степени согласованности и качества видео.

Примеры генерации

Модель успешно генерирует видео с различных точек зрения, сохраняя при этом динамическую согласованность и визуальную целостность. Например, в одном из тестов, где девушка играет на пианино, модель смогла синхронизировать движения и выражения лица с разных углов, что демонстрирует ее мощные способности.

Расширение на новые точки зрения

SynCamMaster также может быть адаптирован для генерации видео с новых точек зрения, что открывает новые возможности для применения в таких областях, как виртуальная реальность и видеоигры.

Заключение

SynCamMaster представляет собой значительный шаг вперед в области генерации видео с нескольких камер. Модель не только справляется с задачами синхронизации и генерации, но и демонстрирует способность к обучению на ограниченных данных, что делает ее полезной для различных приложений в области компьютерного зрения и генерации контента. Несмотря на существующие ограничения, такие как недостаточная производительность в сложных сценах, SynCamMaster открывает новые горизонты для будущих исследований и разработок в области AI и машинного обучения.

Статья на arxiv Оригинал pdf multi-view dataset reconstruction

Ай Дайджест