Инновационный метод экстраполяции видов с использованием предварительных данных видеодиффузии

В области синтеза новых видов (novel view synthesis) наблюдаются значительные достижения, особенно благодаря развитию методов, основанных на полях излучения (radiance fields). Эти методы, такие как NeRF (Neural Radiance Fields), Instant-NGP (Instant Neural Graphics Primitives) и 3D Gaussian Splatting, революционизировали способ создания фотореалистичных изображений новых видов, обучая непрерывные объемные представления сцены на основе набора обучающих видов. Однако, большинство этих методов превосходно справляются с интерполяцией видов (novel view interpolation), когда новый вид находится внутри или близко к выпуклой оболочке обучающих видов, но сталкиваются с трудностями при экстраполяции видов (novel view extrapolation), когда новый вид находится далеко за пределами обучающих данных.

Экстраполяция видов критически важна для создания иммерсивного 3D опыта, позволяя пользователям свободно исследовать реконструированные сцены за пределами исходных обучающих видов. В данной статье мы представляем ViewExtrapolator, новый подход к синтезу новых видов, который использует генеративные предварительные данные из Stable Video Diffusion (SVD) для реалистичной экстраполяции видов.

Основные концепции и методы

ViewExtrapolator

ViewExtrapolator — это метод, который предназначен для улучшения визуального качества и реалистичности новых видов, которые находятся далеко за пределами обучающих видов. Он работает следующим образом:

Рендеринг артефактных видео: Сначала реконструируется поле излучения на основе обучающих видов. Затем рендерится видео, которое начинается с одного из обучающих видов и постепенно переходит к экстраполируемому новому виду. Эти видео часто содержат артефакты, особенно в последних кадрах, где виды выходят за пределы обучающих данных.
Использование SVD: Для устранения артефактов используется SVD, который обучен на большом количестве естественных видео. SVD помогает восстановить и улучшить качество изображения, особенно в тех частях, где отсутствуют данные обучения.
Руководство и адаптация: Мы адаптируем процесс денойзинга (denoising) SVD, чтобы он сохранял оригинальный контент сцены, модифицируя производную ODE (Ordinary Differential Equation) в направлении артефактных видео. Введены два новых подхода:
- Аннеалинг руководства (Guidance Annealing): Этот метод постепенно уменьшает влияние артефактов в процессе денойзинга, позволяя SVD генерировать естественные детали видео, сохраняя при этом общую структуру сцены.
- Аннеалинг ресэмплинга (Resampling Annealing): Этот метод повторяет шаги денойзинга несколько раз, чтобы уменьшить влияние артефактов, которые могут накапливаться в процессе.

Уникальные особенности

Генеральность: ViewExtrapolator может работать с различными подходами к 3D рендерингу, такими как рендеринг из облаков точек, полученных из одной или нескольких монокулярных видео.
Эффективность: Метод не требует дополнительной настройки SVD, что делает его как данных, так и вычислительно эффективным.

Эксперименты и результаты

Создание нового бенчмарка

Для оценки эффективности экстраполяции новых видов мы создали новый бенчмарк, LLFF-Extra, который включает сцены с большой степенью экстраполяции (e > 1), где e определяется как отношение расстояния между новым видом и центроидом обучающих видов к максимальному охвату обучающих видов.

Сравнение с существующими методами

ViewExtrapolator был сравнен с оригинальным 3D Gaussian Splatting (3DGS) и его вариантом с регуляризацией глубины (DRGS). Эксперименты показали, что ViewExtrapolator превосходит эти методы как качественно, так и количественно, особенно по метрике LPIPS (Learned Perceptual Image Patch Similarity), которая более подходит для оценки генеративных задач, таких как экстраполяция видов.

Широкая применимость

Метод демонстрирует свою гибкость и способность к обобщению, работая не только с полями излучения, но и с облаками точек, что делает его применимым в различных сценариях, включая синтез видов из одной фотографии или монокулярного видео.

Абляционные исследования

Были проведены абляционные исследования, чтобы оценить вклад каждого элемента ViewExtrapolator. Без аннеалинга руководства и ресэмплинга качество экстраполяции значительно ухудшается, что подтверждает важность этих компонентов.

Заключение

ViewExtrapolator представляет собой инновационный, не требующий обучения подход к экстраполяции видов, который значительно улучшает качество визуализации новых видов за пределами обучающих данных. Используя генеративные предварительные данные из SVD, метод эффективно устраняет артефакты и обеспечивает реалистичное воспроизведение сцены, что делает его ценным инструментом для создания иммерсивных 3D опытов.

Статья на arxiv Оригинал pdf diffusion extrapolation synthesis

Ай Дайджест