Свежая выжимка ml и AI статей - каждый день
В последние годы методы трехмерной реконструкции сцен претерпели значительные изменения благодаря внедрению новых технологий и алгоритмов. Одним из таких новаторских подходов является метод 3D Gaussian Splatting (3DGS), который позволяет эффективно и с высокой точностью синтезировать новые виды сцен. Однако, несмотря на его успехи, точное воспроизведение поверхностей, особенно в крупномасштабных и сложных сценариях, остается сложной задачей из-за неструктурированной природы 3DGS. В этом контексте представлен CityGaussianV2, новый подход к реконструкции больших сцен, который решает ключевые проблемы геометрической точности и эффективности.
Реконструкция трехмерных сцен является фундаментальной задачей в области компьютерного зрения и графики, стремящейся к фотографически реалистичному рендерингу и точному воспроизведению геометрии. После появления Neural Radiance Fields (NeRF), 3DGS стал доминирующим методом благодаря его превосходству в скорости обучения и эффективности рендеринга. 3DGS использует набор дискретных гауссовых эллипсоидов для представления сцены и рендеринга с помощью оптимизированного растеризатора. Однако, его примитивы не имеют четкой структуры и не соответствуют реальной поверхности сцены, что ухудшает качество синтеза при экстраполяции видов и ограничивает его применение в дальнейшем редактировании, анимации и переосвещении.
Методы, такие как SuGaR и GOF, сталкиваются с проблемами при масштабировании на большие и сложные сцены. SuGaR привязывает меши к гауссианам для уточнения, но в больших сценариях меши могут стать чрезвычайно детализированными, что требует значительных вычислительных ресурсов. GOF, с другой стороны, страдает от размытых гауссианов, что ухудшает качество рендеринга и геометрии.
Оценка геометрии в граничных областях сцен часто бывает ненадежной из-за недостатка наблюдений, что приводит к нестабильным и ошибочным результатам. Это делает объективное сравнение и оценку алгоритмов сложной задачей.
Для реализации точной геометрической реконструкции больших сцен критически важна эффективность параллельного обучения и сжатия. Существующие методы, такие как VastGaussian и CityGaussian, требуют значительного времени на обучение и сжатие, что делает их неприемлемыми для использования на устройствах с ограниченными ресурсами или в условиях жестких временных ограничений.
CityGaussianV2 строится на основе 2D Gaussian Splatting (2DGS) благодаря его способности к обобщению, но решает проблемы сходимости и масштабируемости следующим образом:
Декомпозированный градиентный метод уплотнения и регрессия глубины: Эти техники устраняют размытые артефакты и ускоряют сходимость.
Фильтр удлинения: Помогает предотвратить взрывное увеличение количества гауссианов при параллельном обучении.
Оптимизация параллельного обучения: Сокращает время обучения и потребление памяти, при этом улучшая геометрическое качество.
CityGaussianV2 вводит несколько ключевых улучшений:
Глубинная регрессия: Используется для улучшения геометрической точности путем выравнивания предсказанной глубины с реальными данными.
Фильтр удлинения: Ограничивает уплотнение гауссианов с экстремальным удлинением, что предотвращает взрывное увеличение их количества.
Декомпозированный градиентный метод уплотнения (DGD): Фокусируется на градиенте от SSIM потерь для удаления размытых примитивов и ускорения сходимости.
Параллельное обучение: Использует стратегию разбиения на блоки, что значительно снижает затраты на обучение и память.
Сжатие: Внедряет сферические гармоники второй степени с самого начала и интегрирует обрезку на основе вклада в каждый блок, что позволяет достигать до 10-кратного сжатия.
Для оценки геометрии введен протокол, аналогичный Tanks and Temples (TnT), который включает выравнивание облаков точек, повторную выборку, обрезку объема и измерение F1-скора. Этот подход обеспечивает более стабильную и надежную оценку, исключая недообследованные области.
CityGaussianV2 представляет собой значительный шаг вперед в области реконструкции больших сцен, сочетая в себе высокую точность геометрии с эффективностью обучения и рендеринга. Этот метод демонстрирует, как можно преодолеть ограничения существующих подходов, предоставляя инструменты для более точного и быстрого воспроизведения сложных городских ландшафтов.