DimensionX: Создание 3D и 4D сцен из одного изображения с помощью контролируемой видео диффузии

В современном мире компьютерной графики и зрения создание реалистичных 3D и 4D сцен из одних только изображений является одной из самых сложных и востребованных задач. В этом контексте представленная работа DimensionX предлагает инновационный подход к генерации фотореалистичных 3D и 4D сцен с использованием контролируемой видео диффузии.

В контексте компьютерной графики и зрения, понимание и создание 3D и 4D контента играет ключевую роль в создании реалистичных визуальных впечатлений. Видео, представляя собой последовательность изображений, является мощным средством для захвата динамических сцен реального мира. Однако, несмотря на значительные достижения в технологиях 3D и 4D реконструкции, существует критическая нехватка крупномасштабных 3D и 4D видео датасетов, что ограничивает возможности генерации высококачественных 3D и 4D сцен из одного изображения.

Проблемы и вызовы

Одна из основных проблем заключается в том, что большинство существующих методов либо сосредоточены на генерации на уровне объектов с использованием видео диффузии, обученной на статических или динамических сетках, либо требуют длительной оптимизации для каждой сцены, что делает процесс генерации когерентных и реалистичных 3D/4D сцен открытым вызовом.

DimensionX

В этом исследовании представлен DimensionX, новый подход к созданию высококачественных 3D и 4D сцен из одного изображения с помощью контролируемой видео диффузии. Основной инсайт заключается в том, что пространственная структура 3D сцены и временная эволюция 4D сцены могут быть эффективно представлены через последовательности видеокадров. DimensionX вводит ST-Director, который разделяет пространственные и временные факторы в процессе видео диффузии, позволяя точно контролировать каждый из них по отдельности или в комбинации.

Методология

Создание датасета с вариативными измерениями

Для достижения эффективного контроля над пространственными и временными измерениями, разработана системная структура для построения датасетов с различными измерениями.

Траекторное планирование для пространственных данных

Для получения пространственно-вариативного датасета предложен метод реконструкции фотореалистичных 3D сцен и рендеринга видео, соответствующих нашим пространственным вариациям.

Руководство потоком для временных данных

Для временного контроля, целью является фильтрация временно-вариативных данных для тонкой настройки модели видео диффузии.

ST-Director для контролируемой генерации видео

Инспирированный концепцией ортогонального разложения в линейной алгебре, предложен метод для разделения пространственных и временных измерений в процессе генерации видео для более точного контроля.

Разложение с учетом измерений

Для разложения пространственных и временных вариаций определены эквивалентные отношения, которые захватывают поведение точек в 4D пространстве под различными условиями.

Настройка без обучения для композиции с учетом измерений

С помощью ортогонального базиса директоров, достигается гибкий контроль над генерацией видео, где каждый директор независимо захватывает последовательности кадров вдоль своей оси.

Генерация 3D сцен с использованием S-Director

На основе S-Director, модель видео диффузии способна генерировать последовательные кадры из одного изображения, позволяя реконструировать фотореалистичные сцены.

Генерация 4D сцен с использованием ST-Director

С помощью контролируемой видео диффузии, можно восстановить высококачественную 4D динамическую сцену из одного изображения.

Эксперименты

Контролируемая генерация видео

Видео, созданные с помощью DimensionX, демонстрируют впечатляющую производительность в сравнении с базовыми моделями, включая лучшее качество визуализации и 3D согласованность.

Генерация 3D сцен

В условиях одиночного и разреженного просмотра, DimensionX превосходит базовые методы по всем метрикам, демонстрируя впечатляющую производительность.

Генерация 4D сцен

DimensionX показывает способность создавать последовательные динамические видео из больших углов новых просмотров, что подтверждает его потенциал для создания реалистичных и интерактивных 4D сред.

Заключение

DimensionX предлагает новый подход к созданию фотореалистичных 3D и 4D сцен из одного изображения, используя контролируемую видео диффузию. Основываясь на инсайте о раздельном контроле пространственных и временных факторов, этот метод открывает новые возможности для создания динамических и интерактивных сред. В будущем, исследование может быть направлено на интеграцию моделей диффузии для более эффективной генерации 3D и 4D контента.

Статья на arxiv Оригинал pdf spatial learning diffusion

Ай Дайджест