Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "gaussian"

GaussianProperty: Интеграция физических свойств в 3D Гауссианы с помощью LMM

Оценка физических свойств для визуальных данных является важной задачей в области компьютерного зрения, графики и робототехники, которая лежит в основе таких приложений, как дополненная реальность, физическое моделирование и захват объектов роботами. Тем не менее, эта область остается недостаточно исследованной из-за врожденных неопределенностей в оценке физических свойств. Чтобы справиться с этими проблемами, мы представляем GaussianProperty, безтренировочную структуру, которая задает физические свойства материалов для 3D-гауссианов. В частности, мы интегрируем возможности сегментации SAM с возможностью распознавания GPT-4V(ision) для формирования глобально-локального модуля рассуждений о физических свойствах для 2D-изображений. Затем мы проецируем физические свойства из многослойных 2D-изображений на 3D-гауссианы, используя стратегию голосования. Мы демонстрируем, что 3D-гауссианы с аннотациями физических свойств позволяют применять в физическом динамическом моделировании и захвате объектов роботами. Для физического динамического моделирования мы используем метод точечных материалов (MPM) для реалистичного динамического моделирования. Для захвата объектов роботами мы разрабатываем стратегию прогнозирования силы захвата, которая оценивает безопасный диапазон сил, необходимых для захвата объекта на основе оцененных физических свойств. Широкие эксперименты по сегментации материалов, физическому динамическому моделированию и захвату объектов роботами подтверждают эффективность нашего предлагаемого метода, подчеркивая его важную роль в понимании физических свойств из визуальных данных. Онлайн-демо, код, больше кейсов и аннотированные наборы данных доступны на https://Gaussian-Property.github.io.

SplineGS: Новая эра синтеза новизны в динамических сценах

Синтезирование новых видов из монокулярных видео в естественной обстановке представляет собой сложную задачу из-за динамики сцены и отсутствия многоугловых подсказок. Для решения этой проблемы мы предлагаем SplineGS, свободную от COLMAP динамическую 3D Gaussian Splatting (3DGS) архитектуру для высококачественной реконструкции и быстрой отрисовки из монокулярных видео. В ее основе лежит новый метод Motion-Adaptive Spline (MAS), который представляет собой непрерывные динамические 3D Gaussian траектории с использованием кубических сплайнов Эрмита с малым числом контрольных точек. Для MAS мы вводим метод Motion-Adaptive Control points Pruning (MACP), чтобы смоделировать деформацию каждой динамической 3D Gaussian при различных движениях, постепенно уменьшая количество контрольных точек, сохраняя при этом целостность динамического моделирования. Кроме того, мы представляем стратегию совместной оптимизации для оценки параметров камеры и 3D Gaussian атрибутов, используя фотометрию и геометрическую согласованность. Это устраняет необходимость в предварительной обработке Structure-from-Motion и повышает устойчивость SplineGS в реальных условиях. Эксперименты показывают, что SplineGS значительно превосходит современные методы по качеству синтеза новых видов для динамических сцен из монокулярных видео, достигая скорости отрисовки в тысячи раз быстрее.

FreeSplatter: Платформа для Реконструкции 3D из Редких Взглядов

Существующие модели реконструкции с разреженным обзором сильно зависят от точных известных поз камер. Тем не менее, получение эксцентриков и интринсиков камер из изображений с разреженным обзором представляет собой значительные трудности. В этой работе мы представляем FreeSplatter, высокомасштабируемую структуру реконструкции с прямой подачей, способную генерировать высококачественные 3D-гауссианы из некалиброванных изображений с разреженным обзором и восстанавливать их параметры камеры всего за несколько секунд. FreeSplatter построен на упрощённой архитектуре трансформера, состоящей из последовательных блоков самовнимания, которые облегчают обмен информацией между токенами многовидовых изображений и декодируют их в пиксельно-ориентированные 3D-гауссианские примитивы. Прогнозируемые гауссианские примитивы располагаются в единой эталонной системе координат, что позволяет осуществлять точное 3D-моделирование и мгновенную оценку параметров камеры с использованием стандартных решателей. Чтобы удовлетворить потребности как объектно-центрической, так и сценовой реконструкции, мы обучаем две модели варианта FreeSplatter на обширных датасетах. В обоих случаях FreeSplatter превосходит современные методики по качеству реконструкции и точности оценки позы. Более того, мы демонстрируем потенциал FreeSplatter в повышении продуктивности последующих приложений, таких как создание контента из текста/изображений в 3D.

Генеративная Дензфикация: Обучение для Дензификации Гауссианов для Высококачественной Генерализуемой 3D Реконструкции

Обобщенные модели гауссовских сетей с прямой связью достигли значительного прогресса в разреженной 3D-реконструкции, используя предварительные знания из больших многовидовых наборов данных. Однако эти модели часто испытывают трудности при представлении деталей с высоким разрешением из-за ограниченного количества гауссов. Хотя стратегия увеличения плотности, используемая в оптимизации 3D гауссовского сплошного распыления (3D-GS), может быть адаптирована для моделей с прямой связью, она может быть не идеально подходящей для обобщенных сценариев. В данной статье мы предлагаем Генеративную Уплотнённость, эффективный и обобщаемый метод уплотнения гауссов, генерируемых моделями с прямой связью. В отличие от стратегии уплотнения 3D-GS, которая итеративно делит и клонирует сырые параметры гаусса, наш метод повышает разрешение представлений признаков из моделей с прямой связью и генерирует соответствующие тонкие гауссы за один проход вперед, используя встроенные предварительные знания для повышения обобщения. Экспериментальные результаты по задачам реконструкции как на уровне объектов, так и на уровне сцен демонстрируют, что наш метод превосходит современные подходы с сопоставимыми или меньшими размерами моделей, достигая заметных улучшений в представлении тонких деталей.

Turbo3D: Ультрабыстрое Генерирование 3D Моделей из Текста

Мы представляем Turbo3D, ультрабыструю систему текст в 3D, способную генерировать высококачественные активы с использованием гауссового сплэттинга менее чем за одну секунду. Turbo3D использует быстрый 4-ступенчатый генератор диффузий с 4 видами и эффективный рекомпозитор с гауссовым методом, оба работающие в латентном пространстве. 4-ступенчатый генератор с 4 видами является моделью студента, полученной с помощью нового подхода Dual-Teacher, который побуждает студента учиться согласованности видов у многовидового преподавателя и фотореализму у одновидового преподавателя. Перемещая входные данные рекомпозитора с гауссовым методом из пространстве пикселей в латентное пространство, мы устраняем лишнее время декодирования изображений и уменьшаем длину последовательности трансформатора наполовину для максимальной эффективности. Наш метод демонстрирует превосходные результаты генерации 3D по сравнению с предыдущими эталонами, при этом работает за меньшую долю их времени.

2DGS-Room: Реконструкция Интерьеров с Помощью 2D Гауссового Сплошения

Реконструкция внутренних сцен остается сложной из-за присущей сложности пространственных структур и распространенности областей без текстур. Недавние достижения в 3D-гауссовском сплаттинге улучшили синтез новых видов с ускоренной обработкой, но еще не обеспечили сопоставимую производительность в реконструкции поверхности. В этой статье мы представляем 2DGS-Room, новый метод, использующий 2D-гауссовский сплаттинг для высококачественной реконструкции внутренних сцен. В частности, мы используем механизм, управляемый семенами, чтобы контролировать распределение 2D-гауссианов, при этом плотность семенных точек динамически оптимизируется с помощью адаптивных механизмов роста и обрезки. Чтобы дополнительно улучшить геометрическую точность, мы включаем монокулярные глубины и нормалей как приори для обеспечения ограничений по деталям и бесструктурным регионам соответственно. Кроме того, используются ограничения многовидовой согласованности для уменьшения артефактов и дополнительного улучшения качества реконструкции. Обширные эксперименты на датасетах ScanNet и ScanNet++ демонстрируют, что наш метод достигает наилучшей производительности в реконструкции внутренних сцен.

Momentum-GS: Моментное гауссовское самоотделение для высококачественной реконструкции больших сцен

3D Gaussian Splatting продемонстрировал значительный успех в реконструкции сцен большого масштаба, однако существуют проблемы из-за высокого потребления памяти при обучении и накладных расходов на хранение. Гибридные представления, которые интегрируют неявные и явные характеристики, предлагают способ смягчить эти ограничения. Однако при применении параллельного блочного обучения возникают две критические проблемы, так как точность реконструкции ухудшается из-за снижения разнообразия данных при независимом обучении каждого блока, а параллельное обучение ограничивает количество деленных блоков доступным числом графических процессоров (GPU). Чтобы решить эти проблемы, мы предлагаем Momentum-GS, новый подход, который использует самодистилляцию на основе импульса, чтобы способствовать согласованности и точности между блоками, одновременно отделяя количество блоков от физического числа GPU. Наш метод поддерживает учительский гауссов декодер, обновляемый с помощью импульса, обеспечивая стабильную отправную точку во время обучения. Этот учитель предоставляет каждому блоку глобальную направляющую в манере самодистилляции, способствуя пространственной согласованности в реконструкции. Чтобы дополнительно обеспечить согласованность между блоками, мы внедряем взвешивание блоков, динамически регулируя вес каждого блока в зависимости от его точности реконструкции. Обширные эксперименты на сценах большого масштаба показывают, что наш метод последовательно превосходит существующие техники, достигая 12.8% улучшения в LPIPS по сравнению с CityGaussian с гораздо меньшим количеством деленных блоков и устанавливая новый эталон. Страница проекта: https://jixuan-fan.github.io/Momentum-GS_Page/

3D Convex Splatting: Рендеринг Полей Яркости с Использованием 3D Гладких Выпуклостей

Недавние достижения в реконструкции радиантных полей, такие как 3D Gaussian Splatting (3DGS), достигли качественной синтезы новых видов и быстрого рендеринга, представляя сцены в виде композиций гауссовых примитивов. Однако 3D гауссианы имеют несколько ограничений для реконструкции сцен. Точно захватить жесткие края сложно, не увеличивая значительно количество гауссиан, что создает большую память. Более того, они имеют трудности с представлением плоских поверхностей, так как они рассеиваются в пространстве. Без рукотворных регуляризаторов они имеют тенденцию неправильно рассеиваться вокруг фактической поверхности. Чтобы обойти эти проблемы, мы представляем новый метод, названный 3D Convex Splatting (3DCS), который использует 3D гладкие выпуклые формы в качестве примитивов для моделирования геометрически значимых радиантных полей из изображений с многими взглядами. Гладкие выпуклые формы предлагают большую гибкость, чем гауссианы, позволяя лучше представлять 3D сцены с жесткими краями и плотными объемами, используя меньше примитивов. Оснащенный нашим эффективным растеризатором на основе CUDA, 3DCS демонстрирует превосходные результаты по сравнению с 3DGS в таких бенчмарках, как Mip-NeRF360, Tanks and Temples и Deep Blending. В частности, наш метод достигает улучшения до 0,81 в PSNR и 0,026 в LPIPS по сравнению с 3DGS, сохраняя высокие скорости рендеринга и уменьшая количество необходимых примитивов. Наши результаты подчеркивают потенциал 3D Convex Splatting стать новым стандартом для качественной реконструкции сцен и синтеза новых видов. Страница проекта: convexsplatting.github.io.

SplatFlow: Модель многоугольного потока для синтеза 3D Gaussian Splatting

Текстовая генерация и редактирование 3D сцен имеют значительный потенциал для оптимизации создания контента через интуитивно понятные взаимодействия с пользователем. Несмотря на недавние достижения, которые используют 3D Гауссово Разбрызгивание (3DGS) для высококачественного и реального времени рендеринга, существующие методы часто специализированы и ориентированы на конкретные задачи, не предлагая единой платформы для как генерации, так и редактирования. В данной статье мы представляем SplatFlow, комплексную платформу, которая устраняет этот пробел, предоставляя возможности для прямой генерации и редактирования 3DGS. SplatFlow состоит из двух основных компонентов: модели многовидового выпрямленного потока (RF) и декодера Гауссового Разбрызгивания (GSDecoder). Модель многовидового RF работает в латентном пространстве, одновременно генерируя многовидовые изображения, глубины и позиции камеры, основываясь на текстовых подсказках, что решает проблемы, связанные с различными масштабами сцен и сложными траекториями камеры в реальных условиях. Затем GSDecoder эффективно переводит эти латентные выходы в представления 3DGS через метод прямого прохождения 3DGS. Используя методы инверсии и закрашивания без обучения, SplatFlow обеспечивает бесшовное редактирование 3DGS и поддерживает широкий спектр задач 3D, включая редактирование объектов, синтез новых видов и оценку положения камеры, в рамках единой платформы без необходимости дополнительных сложных конвейеров. Мы подтверждаем возможности SplatFlow на наборах данных MVImgNet и DL3DV-7K, демонстрируя её универсальность и эффективность в различных задачах генерации, редактирования и закрашивания в 3D.

Видео Гауссово Разбрызгивание (VeGaS): Новый Подход к Обработке Видео

Неявные нейронные представления (INRs) используют нейронные сети для аппроксимации дискретных данных в виде непрерывных функций. В контексте видеоданных такие модели могут быть использованы для преобразования координат расположения пикселей вместе со временем (или индексами) появления кадра в значения RGB цветов. Хотя INRs способствуют эффективному сжатию, они не подходят для редактирования. Одним из возможных решений является использование модели на основе 3D Гауссовского распыления (3DGS), такой как Видео Гауссовое Представление (VGR), которое способно кодировать видео в виде множества 3D Гауссиан и применяться для множества операций обработки видео, включая редактирование. Тем не менее, в этом случае возможности изменения ограничены небольшим набором базовых преобразований. Для решения этой проблемы мы представляем модель Видео Гауссовского Распыления (VeGaS), которая позволяет осуществлять реалистичные изменения видеоданных. Для создания VeGaS мы предлагаем новую семью распределений Сложенных-Гауссиан, разработанных для захвата нелинейной динамики в видеопотоке и моделирования последовательных кадров с помощью 2D Гауссиан, полученных как соответствующие условные распределения. Наши эксперименты показывают, что VeGaS превосходит современные решения в задачах восстановления кадров и позволяет реалистично модифицировать видеоданные. Код доступен по ссылке: https://github.com/gmum/VeGaS.