Видеодиффузия с учетом мира: концепция WVD и ее применение

Современные достижения в области генеративных моделей, особенно диффузионных моделей, значительно изменили подходы к синтезу изображений и видео. Эти модели продемонстрировали впечатляющие результаты в генерации реалистичных изображений, однако они все еще сталкиваются с трудностями в создании контента, согласованного в трехмерном пространстве. В этой статье мы рассмотрим новую концепцию, предложенную в работе "World-consistent Video Diffusion" (WVD), которая объединяет генерацию видео и трехмерное моделирование для достижения более высокой согласованности и качества.

Проблемы существующих моделей

Несмотря на успехи диффузионных моделей в генерации изображений и видео, они имеют несколько ограничений:

Необходимость в больших объемах данных: Для обучения моделей требуется значительное количество данных, что усложняет процесс их создания и внедрения.
Отсутствие явных гарантий трехмерной согласованности: Многие модели полагаются на неявные методы для обеспечения согласованности между кадрами, что может привести к несоответствиям в 3D-пространстве.
Сложности с представлением 3D-геометрии: Традиционные методы моделирования 3D-содержимого часто требуют сложных архитектур и оптимизаций, что затрудняет их применение к более сложным наборам данных.

Концепция WVD

World-consistent Video Diffusion (WVD) представляет собой новую архитектуру, которая использует явное 3D-направление в процессе диффузии, интегрируя RGB и XYZ кадры в единую модель. Основная идея заключается в том, чтобы использовать XYZ-изображения, которые представляют собой текстурные данные, содержащие глобальные 3D-координаты для каждого пикселя, что позволяет модели учиться генерировать как RGB, так и XYZ кадры одновременно.

Архитектурный дизайн

WVD использует архитектуру, основанную на трансформерах (Diffusion Transformers), которые способны обрабатывать сложные зависимости между кадрами. Это позволяет модели эффективно захватывать 3D-структуры и генерировать согласованный контент. В процессе обучения модель учится совместному распределению RGB и XYZ кадров, что обеспечивает гибкость в выполнении различных задач, таких как оценка позы камеры и предсказание глубины.

Преимущества использования XYZ-изображений

XYZ-изображения имеют несколько ключевых преимуществ:

Явная супервайзинг: Поскольку XYZ-изображения не содержат текстурной информации, они обеспечивают надежное выравнивание пикселей между различными ракурсами, что позволяет модели получать прямую 3D-направленность во время генерации.
Отказ от дополнительного контроля камеры: Использование XYZ-изображений устраняет необходимость в сложных представлениях камеры, что упрощает масштабирование модели на более сложные наборы данных.

Обучение модели WVD

Модель WVD обучается на последовательностях 6D-видео, состоящих из RGB и XYZ кадров. В процессе обучения модель использует предобученные вариационные автоэнкодеры (VAE) для обработки данных в латентном пространстве. Это значительно увеличивает эффективность обучения и позволяет модели адаптироваться к различным задачам, включая генерацию новых RGB кадров и оценку глубины.

Пост-оптимизация

После генерации XYZ-изображений модель может легко выполнять алгоритм Perspective-n-Point (PnP) для восстановления соответствующих параметров камеры и карт глубины. Этот этап пост-оптимизации позволяет улучшить качество 3D-геометрии, что особенно полезно для последующих задач.

Применение WVD в различных задачах

Генерация 3D из одного изображения

WVD может быть использована для различных задач, включая оценку глубины и синтез новых ракурсов из одного изображения. Вместо традиционных подходов, которые требуют явного контроля, WVD использует генеративный процесс для более естественного получения 3D-структуры.

Многовидовая стереозадача

Модель также может быть адаптирована для многовидовых задач, где она предсказывает только XYZ-кадры на основе набора RGB-изображений. Это достигается через процесс "инпейнтинга", где модель генерирует недостающие компоненты, сохраняя согласованность с предоставленными данными.

Контролируемая генерация видео

WVD поддерживает контролируемую генерацию видео, позволяя пользователю управлять движением камеры в сгенерированных видео. Это достигается путем проекции сгенерированных 3D-точек на целевые позы камеры, что обеспечивает четкое соответствие между сгенерированным и реальным видео.

Результаты экспериментов

В ходе экспериментов модель WVD была протестирована на различных наборах данных, включая RealEstate10K и ScanNet. Результаты показали, что WVD достигает конкурентоспособных результатов по сравнению с существующими методами, демонстрируя высокую степень согласованности между многими ракурсами и отличное качество генерируемого контента.

Оценка качества

Качество сгенерированных изображений оценивалось с использованием таких метрик, как Frechet Inception Distance (FID) и Key Points Matching (KPM). Результаты показали, что WVD превосходит большинство существующих методов в отношении многовидовой согласованности и качества отображения.

Заключение и будущее

Модель WVD представляет собой значительный шаг вперед в области генерации видео и трехмерного моделирования. Она объединяет RGB и XYZ данные в единый процесс, обеспечивая высокую степень согласованности и качество. В будущем, исследование может быть направлено на расширение возможностей модели для работы с динамическими наборами данных и внедрение других модальностей, таких как оптический поток и другие представления, что позволит еще больше улучшить результаты.

С учетом вышеизложенного, WVD имеет потенциал стать основой для дальнейших исследований в области 3D-моделирования и видео генерации, открывая новые горизонты для применения в различных областях, таких как виртуальная реальность, игра и киноиндустрия.

Статья на arxiv Оригинал pdf diffusion video transformer

Ай Дайджест