Свежая выжимка ml и AI статей - каждый день
В современной эре визуальных технологий, где виртуальная реальность (VR), дополненная реальность (AR), гейминг и робототехника играют ключевую роль, потребность в реалистичной генерации и редактировании 3D сцен из текстовых описаний стала более актуальной, чем когда-либо. Ранние работы в этой области в основном использовали Neural Radiance Fields (NeRF) для генерации сцен, но их вычислительная интенсивность ограничивала скорость рендеринга. В последнее время, 3D Gaussian Splatting (3DGS) предложил альтернативу, обеспечивая высококачественный рендеринг в реальном времени. Однако, существующие методы генерации и редактирования 3DGS специализированы и зачастую ограничены в своих возможностях, не предоставляя универсального решения для обоих задач.
В этой статье мы представляем SplatFlow — инновационную модель, которая объединяет генерацию и редактирование 3DGS в единую, эффективную систему. SplatFlow использует многоугольный поток (Rectified Flow, RF) и декодер Gaussian Splatting (GSDecoder), чтобы предложить прямое создание 3DGS и возможность его редактирования без дополнительных сложных процедур.
Модель многоугольного потока в SplatFlow работает в латентном пространстве, где она одновременно генерирует многоугольные изображения, карты глубины и позиции камеры, используя текстовые подсказки. Это позволяет модели эффективно справляться с вызовами реальных сцен, таких как различные масштабы сцен и сложные траектории камеры.
GSDecoder преобразует латентные представления, полученные от модели многоугольного потока, в 3DGS, создавая пиксельно-согласованную структуру сцены.
SplatFlow позволяет генерировать 3DGS из текстовых описаний, обеспечивая высокую степень детализации и реалистичности. Это достигается за счет совместного моделирования изображений, глубины и позиций камеры, что позволяет создавать сцены, которые могут быть использованы в различных приложениях, от виртуальной реальности до архитектурного дизайна.
Одной из ключевых особенностей SplatFlow является возможность редактирования 3DGS без необходимости в дополнительных модулях или сложных процедурах. Используя техники инверсии и инпейнтинга, модель может изменять объекты в сцене, заменять их или добавлять новые элементы, сохраняя при этом 3D согласованность.
SplatFlow также может оценивать позиции камеры из многоугольных изображений и карт глубины, что полезно для задач, связанных с восстановлением траектории камеры или созданием виртуальных туров по сценам.
В наших экспериментах SplatFlow продемонстрировал превосходные результаты в генерации и редактировании 3DGS на реальных наборах данных, таких как MVImgNet и DL3DV-7K. Мы сравнили нашу модель с существующими методами, показав, что SplatFlow:
SplatFlow представляет собой важный шаг вперед в области генерации и редактирования 3D контента. Благодаря своей способности объединять генерацию и редактирование в одном эффективном процессе, модель открывает новые возможности для создания и манипулирования виртуальными мирами. Мы верим, что SplatFlow станет основой для будущих исследований и разработок в области 3D визуализации и взаимодействия с виртуальными средами.