SplatFlow: Модель многоугольного потока для синтеза 3D Gaussian Splatting

В современной эре визуальных технологий, где виртуальная реальность (VR), дополненная реальность (AR), гейминг и робототехника играют ключевую роль, потребность в реалистичной генерации и редактировании 3D сцен из текстовых описаний стала более актуальной, чем когда-либо. Ранние работы в этой области в основном использовали Neural Radiance Fields (NeRF) для генерации сцен, но их вычислительная интенсивность ограничивала скорость рендеринга. В последнее время, 3D Gaussian Splatting (3DGS) предложил альтернативу, обеспечивая высококачественный рендеринг в реальном времени. Однако, существующие методы генерации и редактирования 3DGS специализированы и зачастую ограничены в своих возможностях, не предоставляя универсального решения для обоих задач.

В этой статье мы представляем SplatFlow — инновационную модель, которая объединяет генерацию и редактирование 3DGS в единую, эффективную систему. SplatFlow использует многоугольный поток (Rectified Flow, RF) и декодер Gaussian Splatting (GSDecoder), чтобы предложить прямое создание 3DGS и возможность его редактирования без дополнительных сложных процедур.

Основные компоненты SplatFlow

1. Модель многоугольного потока (Multi-View Rectified Flow Model)

Модель многоугольного потока в SplatFlow работает в латентном пространстве, где она одновременно генерирует многоугольные изображения, карты глубины и позиции камеры, используя текстовые подсказки. Это позволяет модели эффективно справляться с вызовами реальных сцен, таких как различные масштабы сцен и сложные траектории камеры.

Генерация многоугольных изображений и глубины: Модель обучается на больших наборах данных, чтобы предсказывать изображения и глубину с различных точек зрения, что критически важно для создания 3D представлений.
Оценка позиций камеры: Используя координаты лучей Плюкера, модель может точно определять позицию камеры, что обеспечивает согласованность между различными видами сцены.

2. Декодер Gaussian Splatting (GSDecoder)

GSDecoder преобразует латентные представления, полученные от модели многоугольного потока, в 3DGS, создавая пиксельно-согласованную структуру сцены.

Интеграция латентных карт глубины: Добавление латентных карт глубины в процесс декодирования улучшает качество и скорость сходимости 3DGS.
Адверсарная потеря: Применение адверсарной потери после достижения определенного уровня сходимости улучшает визуальное качество без дестабилизации обучения.

Применение SplatFlow

Генерация 3DGS

SplatFlow позволяет генерировать 3DGS из текстовых описаний, обеспечивая высокую степень детализации и реалистичности. Это достигается за счет совместного моделирования изображений, глубины и позиций камеры, что позволяет создавать сцены, которые могут быть использованы в различных приложениях, от виртуальной реальности до архитектурного дизайна.

Редактирование 3DGS

Одной из ключевых особенностей SplatFlow является возможность редактирования 3DGS без необходимости в дополнительных модулях или сложных процедурах. Используя техники инверсии и инпейнтинга, модель может изменять объекты в сцене, заменять их или добавлять новые элементы, сохраняя при этом 3D согласованность.

Замена объектов: SplatFlow может заменять объекты в 3D сцене, используя текстовые описания для руководства процессом редактирования.
Синтез новых видов: Модель способна генерировать новые виды сцены, используя подмножество известных видов и позиций камеры.

Оценка позиций камеры

SplatFlow также может оценивать позиции камеры из многоугольных изображений и карт глубины, что полезно для задач, связанных с восстановлением траектории камеры или созданием виртуальных туров по сценам.

Экспериментальные результаты

В наших экспериментах SplatFlow продемонстрировал превосходные результаты в генерации и редактировании 3DGS на реальных наборах данных, таких как MVImgNet и DL3DV-7K. Мы сравнили нашу модель с существующими методами, показав, что SplatFlow:

Генерирует сцены с более высокой детализацией и реалистичностью.
Обеспечивает эффективное редактирование 3DGS, превосходя по качеству и точности другие подходы.
Способен к точной оценке позиций камеры и синтезу новых видов сцены.

Заключение

SplatFlow представляет собой важный шаг вперед в области генерации и редактирования 3D контента. Благодаря своей способности объединять генерацию и редактирование в одном эффективном процессе, модель открывает новые возможности для создания и манипулирования виртуальными мирами. Мы верим, что SplatFlow станет основой для будущих исследований и разработок в области 3D визуализации и взаимодействия с виртуальными средами.

Статья на arxiv Оригинал pdf framework synthesis inpainting

Ай Дайджест