Свежая выжимка ml и AI статей - каждый день
Восстановление сложных сцен и синтез новых видов являются основными задачами в области компьютерного зрения и графики. Эти задачи имеют широкий спектр приложений, от виртуальной реальности до автономной навигации. Одним из значительных прорывов в этой области стало введение нейронных радиационных полей (NeRF), которые моделируют сцены как непрерывные объемные поля яркости, позволяя достигать высококачественного синтеза новых видов. Однако, несмотря на свои преимущества, NeRF сталкивается с проблемами медленного обучения и рендеринга, что ограничивает его практическое применение.
Для решения этих проблем была разработана методика 3D Gaussian Splatting (3DGS), которая представляет сцены с помощью миллионов 3D гауссиан. Этот подход значительно ускоряет обучение и позволяет осуществлять рендеринг в реальном времени, сохраняя при этом высокое качество выходных данных. Тем не менее, у гауссиан есть свои ограничения, такие как отсутствие четко определенных физических границ, что делает их неэффективными для точного представления плоских поверхностей и сложных геометрических структур.
В ответ на эти ограничения мы представляем новый метод, названный 3D Convex Splatting (3DCS), который использует 3D гладкие выпуклости в качестве примитивов для моделирования геометрически значимых полей яркости из многовидовых изображений. Гладкие выпуклые формы предлагают большую гибкость по сравнению с гауссианами, позволяя лучше представлять 3D сцены с резкими краями и плотными объемами, используя меньшее количество примитивов.
NeRF произвел революцию в области 3D реконструкции, моделируя сцены как объемные радиационные поля, которые могут быть использованы для синтеза новых видов. Он использует многослойные перцептроны для кодирования геометрии сцены и зависимой от вида внешности, оптимизируя их через фотометрическую потерю. Однако, несмотря на его успехи, NeRF требует значительных вычислительных ресурсов и времени для обучения.
Метод 3DGS представляет сцены с помощью множества 3D гауссиан, которые могут быть быстро отрисованы и оптимизированы для достижения высококачественного рендеринга. Однако, как уже упоминалось, гауссианы имеют свои ограничения: они не могут эффективно захватывать резкие края и геометрические структуры, что требует увеличения количества гауссиан и, как следствие, повышает объем памяти и вычислительные затраты.
3DCS предлагает решение этих проблем, используя 3D гладкие выпуклости в качестве примитивов. Гладкие выпуклые формы могут более точно представлять сложные геометрические структуры, такие как резкие края и плоские поверхности, чем гауссианы. Метод 3DCS сочетает в себе преимущества быстрого рендеринга 3DGS и гибкости гладких выпуклостей, что позволяет достигать высококачественного рендеринга с меньшим количеством примитивов.
В 3DCS мы определяем выпуклый полиэдр с помощью множества плоскостей. Для создания гладкого представления выпуклой формы мы используем сглаженную приближенную функцию знакового расстояния, которая контролирует кривизну выпуклой формы. Параметры гладкости и резкости позволяют управлять формой, создавая как жесткие, так и мягкие структуры.
В отличие от 3DGS, где используются фиксированные точки для представления формы, в 3DCS мы используем набор точек, которые могут свободно перемещаться, позволяя более гибкое позиционирование и морфинг выпуклой формы. Мы проецируем 3D точки на 2D плоскость изображения, создавая 2D выпуклую оболочку, которая точно представляет контур выпуклой формы для рендеринга.
Индикаторная функция, основанная на проекции, позволяет определять, находится ли точка внутри или вне выпуклой формы, что также является дифференцируемым процессом, позволяющим оптимизировать параметры формы на основе изображений.
Для достижения реального времени рендеринга мы разработали собственный CUDA-основанный растеризатор, который позволяет эффективно обрабатывать произвольное количество примитивов. Все вычисления, включая проекцию, вычисление выпуклой оболочки и реализацию индикаторной функции, полностью дифференцируемы и выполняются в рамках наших специализированных CUDA-ядр.
Оптимизация в 3DCS включает в себя настройку положения каждой точки, параметров гладкости и резкости, а также цветовых коэффициентов. Мы используем адаптивный механизм управления для динамического добавления гладких выпуклостей, что позволяет поддерживать высокое качество рендеринга при меньшем количестве примитивов.
Мы провели серию синтетических экспериментов, чтобы продемонстрировать превосходство 3DCS над гауссианами в качестве примитивов. Результаты показывают, что гладкие выпуклости могут эффективно приближать широкий спектр форм, включая как полиэдры, так и гауссианы, при этом требуя меньше примитивов для точного представления.
Для оценки 3DCS на реальных данных мы использовали те же наборы данных, что и для 3DGS, включая сцены из Deep Blending и Tanks & Temples. Результаты показывают, что 3DCS последовательно превосходит другие методы по всем метрикам, включая PSNR и LPIPS, демонстрируя высокое качество рендеринга и низкое потребление памяти.
В сравнении с 3DGS, 3DCS достигает значительно лучших результатов в синтезе новых видов, особенно в сценах с жесткими краями и плотными объемами. Мы также провели абляционное исследование, которое показало, что увеличение количества точек на выпуклость улучшает качество рендеринга, однако оптимальное количество точек варьируется в зависимости от сложности сцены.
Метод 3D Convex Splatting (3DCS) представляет собой новое направление в рендеринге полей яркости, используя гладкие выпуклости для достижения высококачественного синтеза новых видов. Он преодолевает ограничения 3D Gaussian Splatting, предлагая более плотные представления с меньшим количеством примитивов и параметров. 3DCS демонстрирует значительные улучшения в задачах синтеза новых видов, особенно на наборах данных Tanks & Temples и Mip-NeRF360.
В будущем мы видим потенциал 3DCS как нового стандарта для высококачественной реконструкции сцен и синтеза новых видов, открывающего новые возможности для исследований в области компьютерного зрения и графики.