Свежая выжимка ml и AI статей - каждый день
Современные достижения в области нейронного представления сцены и дифференцируемого рендеринга, такие как Neural Radiance Fields (NeRF) и Gaussian Splatting, продемонстрировали выдающееся качество многовидовой реконструкции для плотно захваченных изображений с откалиброванными позами камер. Однако эти методы не применимы к сценариям с редкими взглядами, где традиционные методы калибровки камер, такие как Structure-from-Motion (SfM), часто терпят неудачу из-за недостаточного перекрытия изображений. В этой статье мы рассмотрим FreeSplatter, новую высокомасштабируемую платформу для реконструкции 3D, способную генерировать качественные 3D Gaussian'ы из некалиброванных изображений с редкими взглядами и одновременно восстанавливать параметры камер.
Существующие модели реконструкции, основанные на редких взглядах, в значительной степени зависят от точных известных поз камер. Однако извлечение экстра- и интринсических параметров камеры из изображений с редкими взглядами представляет собой серьезные проблемы. Традиционные методы, такие как SfM, требуют значительного перекрытия между изображениями, что делает их неэффективными для сценариев с ограниченными данными.
Модели, которые пытаются решить эту проблему, часто предполагают наличие точных поз камер или полагаются на предварительную обработку для их получения. Это оставляет значительный пробел в области, так как освобождение реконструкции с редкими взглядами от известных поз камер остается важной задачей.
FreeSplatter представляет собой высокомасштабируемую, прямую архитектуру реконструкции, основанную на трансформере, которая может предсказывать 3D Gaussian'ы на пиксельном уровне из некалиброванных изображений с редкими взглядами. Основной идеей является использование последовательных блоков самовнимания для обмена информацией между токенами изображений из разных видов и декодирования их в пиксельно-ориентированные 3D Gaussian примитивы.
FreeSplatter использует архитектуру трансформера, аналогичную GS-LRM, где входные изображения сначала разбиваются на токены. Затем токены подаются через последовательность блоков самовнимания, что позволяет модели обмениваться информацией между несколькими видами. На выходе мы получаем N Gaussian карт, каждая из которых состоит из пиксельно-ориентированных Gaussian примитивов.
Входные изображения разбиваются на патчи, которые затем преобразуются в одномерные векторы. Эти векторы проходят через линейный слой для отображения их в d-мерные токены изображений. Каждый токен дополнительно обогащается позиционными и видовыми эмбеддингами, что позволяет модели различать эталонный вид и другие виды.
Каждый выходной токен преобразуется обратно в Gaussian примитивы с помощью простого линейного слоя. Это позволяет предсказывать истинные позиции Gaussian'ов в пространстве, что является важным этапом для дальнейшего рендеринга и оценки параметров камеры.
FreeSplatter обучается на обширных датасетах, включая Objaverse и смеси нескольких сцен. Мы обучаем две модели: FreeSplatter-O для объектно-центричной и FreeSplatter-S для сценовой реконструкции. Обе модели показывают превосходные результаты по сравнению с существующими методами, что подтверждается высокими показателями качества реконструкции и точности оценки поз.
Обучение моделей FreeSplatter включает в себя предварительное обучение с использованием потерь, основанных на Gaussian позициях. Это позволяет модели лучше предсказывать позиции Gaussian'ов в начале процесса обучения. Мы также применяем потери выравнивания, чтобы гарантировать, что предсказанные Gaussian'ы находятся на лучах камеры.
Общая цель обучения FreeSplatter включает в себя потери рендеринга, потери выравнивания и потери, связанные с позициями Gaussian'ов. Эти потери комбинируются с использованием весов, чтобы сбалансировать их влияние на обучение.
FreeSplatter демонстрирует выдающиеся результаты как в задачах объектно-центричной, так и сценовой реконструкции. Модели FreeSplatter-O и FreeSplatter-S показывают высокие показатели PSNR, SSIM и LPIPS, что подтверждает их эффективность в генерации высококачественных 3D моделей.
В сравнении с другими существующими методами, такими как PF-LRM и LEAP, FreeSplatter показывает значительно лучшие результаты. Особенно заметно улучшение в качестве визуализации и детализации, что делает FreeSplatter предпочтительным выбором для задач 3D реконструкции.
FreeSplatter имеет большой потенциал для улучшения производительности в таких приложениях, как создание контента 3D из текстов и изображений. Это позволяет пользователям легко получать 3D модели без необходимости в сложной калибровке камер.
FreeSplatter представляет собой значительный шаг вперед в области реконструкции 3D из редких взглядов. Используя трансформерную архитектуру и предсказывая Gaussian карты в едином референсном кадре, FreeSplatter обеспечивает высококачественное 3D моделирование и мгновенную оценку поз камер. Хотя есть еще много работы впереди, особенно в отношении унификации моделей для различных задач, FreeSplatter уже сейчас демонстрирует выдающиеся результаты и открывает новые горизонты в области 3D реконструкции.