Свежая выжимка ml и AI статей - каждый день
С недавним появлением нейронных радиационных полей (NeRF) и 3D-гауссового сплошения (3D-GS) произошел значительный прогресс в области компьютерного зрения и графики, особенно в 3D-реконструкции и синтезе новых видов. Эти методы, обучаясь на изображениях, снятых с различных точек зрения, могут создавать геометрически согласованные, фотореалистичные изображения, что полезно для различных приложений, таких как виртуальная реальность, робототехника и семантическое понимание. Однако обучение NeRF и 3D-GS требует большого набора точно заданных изображений, а также итеративных процедур оптимизации для каждой сцены, что ограничивает их применимость в более широких случаях.
Для преодоления итеративных этапов оптимизации были предложены различные модели обобщаемой 3D-реконструкции, которые могут предсказывать 3D-геометрию и внешний вид из нескольких заданных изображений за одно прямое прохождение. Эти модели используют пиксельно-выравненные признаки для извлечения сценовых приоритетов из входных изображений и генерируют новые виды с помощью дифференцируемых методов рендеринга. Однако основное ограничение заключается в том, что они зависят от откалиброванных изображений (с точными позами камеры) как для обучения, так и для вывода, что ограничивает их использование в менее контролируемых условиях.
Недавние усилия интегрировали оценку позы камеры с 3D-реконструкцией сцен, комбинируя несколько задач в одной структуре. Поза-свободные обобщаемые методы стремятся научиться надежной 3D-геометрии из некалиброванных изображений и генерировать точные 3D-представления за одно прямое прохождение. Несмотря на многообещающие результаты, они все еще сталкиваются со значительными проблемами, такими как ошибки в оценке позы, которые могут привести к неточностям и ухудшению производительности.
В этой работе мы представляем SelfSplat, новую модель 3D-гауссового сплошения, созданную для выполнения поза-свободной и 3D-природной обобщаемой 3D-реконструкции из непозированных многовидовых изображений. Наша модель эффективно интегрирует явные 3D-представления с методами самонаблюдаемой оценки глубины и позы, что приводит к взаимному улучшению как точности позы, так и качества 3D-реконструкции.
SelfSplat разработан для работы с непозированными многовидовыми изображениями, что делает его отличным от традиционных методов, которые требуют точных поз для каждого изображения. Это позволяет модели работать в условиях, где данные могут быть менее контролируемыми, что значительно расширяет ее применимость.
Мы используем 3D-GS как явное 3D-представление, которое чувствительно к небольшим ошибкам в позиционировании. Наша модель использует самонаблюдаемое обучение для предсказания глубины и позы камеры, что позволяет улучшить качество реконструкции в отсутствие информации о позе камеры. Это также помогает уменьшить ошибки, возникающие из-за неправильного позиционирования гауссовых примитивов.
Для улучшения точности геометрии мы вводим сеть оценки позы, которая учитывает дополнительную информацию из нескольких видов. Это позволяет улучшить точность оценок позы и обеспечивает более надежные результаты.
Мы разрабатываем модуль уточнения глубины, который использует оцененные позы в качестве встраиваемых признаков. Это позволяет достичь точных и согласованных 3D-представлений, что критично для точной геометрии сцены.
SelfSplat состоит из нескольких ключевых компонентов:
Многоуровневый и монокулярный энкодер: Эти модели извлекают признаки из входных изображений, используя архитектуру CNN с общими весами, а затем обмениваются информацией через трансформеры.
Блок слияния и плотного предсказания: Этот блок объединяет много- и одноуровневые признаки для достижения согласованного и детализированного предсказания гауссовых примитивов.
Сеть оценки позы с учетом сопоставления: Эта сеть использует кросс-внимание для извлечения многоуровневых признаков и предсказывает относительные позы между изображениями.
Декодер гауссовых примитивов: Он отвечает за генерацию 3D-гауссовых представлений на основе извлеченных признаков и оцененных поз.
Мы провели обширные эксперименты на нескольких крупных наборах данных, включая RealEstate10K, ACID и DL3DV. Наши результаты показывают, что SelfSplat превосходит предыдущие методы по всем основным метрикам, включая PSNR, SSIM и LPIPS.
Мы достигли значительных улучшений в качестве синтеза нового вида, что подтверждается как количественными, так и качественными результатами. SelfSplat демонстрирует способность захватывать мелкие детали 3D-структуры, что делает его подходящим для приложений, требующих высокой точности.
Наша модель также показывает низкие ошибки в оценке поз камер, что подчеркивает ее точность и надежность. Мы сравнили результаты с другими методами и обнаружили, что SelfSplat consistently achieves lower errors in both average and median deviations.
Для оценки способности к обобщению на сценах, не входящих в тренировочный набор, мы провели тесты на наборах данных ACID и RealEstate10K без дополнительной тонкой настройки. Результаты показали, что SelfSplat превосходит предыдущие методы, демонстрируя сильные способности к обобщению.
SelfSplat представляет собой значительный шаг вперед в области 3D-представления, предлагая надежное решение для различных приложений. Его способность выполнять 3D-реконструкцию без предварительно обученных 3D-моделей и дополнительных этапов тонкой настройки делает его особенно привлекательным для практического применения. Несмотря на некоторые ограничения, такие как трудности с динамическими сценами, мы уверены, что SelfSplat откроет новые горизонты в области компьютерного зрения и графики.