Свежая выжимка ml и AI статей - каждый день
Восстановление геометрической и материалной информации из изображений является одной из ключевых задач в области компьютерного зрения и графики. Этот процесс, известный как обратное рендеринг (inverse rendering), представляет собой сложную задачу, требующую учета различных факторов, таких как освещение, свойства материалов и геометрия поверхности объектов. Традиционные методы, основанные на оптимизации, часто требуют значительного времени для вычислений и не всегда обеспечивают точные результаты из-за амбигуити (неоднозначности) между освещением и материалами. В последние годы методы, основанные на обучении, начали активно использоваться для решения этой проблемы, но они сталкиваются с трудностями при поддержании согласованности между многими видами.
В данной статье мы представляем IDArb — модель, основанную на диффузии, которая предназначена для выполнения внутренней декомпозиции изображений с произвольным количеством входных видов и изменяющимся освещением. Мы обсудим архитектуру модели, используемые методики и результаты, показывающие, что IDArb превосходит существующие методы как по качеству, так и по количеству.
Цвет, который мы воспринимаем от объектов, является результатом сложного взаимодействия между падающим светом, свойствами материалов и геометрией поверхности. Восстановление этих внутренних свойств из захваченных изображений является основной задачей в компьютерном зрении, открывающей возможности для различных приложений, таких как рендеринг (relighting) и создание фотореалистичного 3D-контента.
Существует два основных подхода к обратному рендерингу: методы, основанные на оптимизации, и методы, основанные на обучении. Первые требуют больших объемов многовидовых изображений и фокусируются на оптимизации внутренних свойств для каждого случая отдельно, что может занять много времени и привести к неоптимальным решениям. Методы, основанные на обучении, используют полезные приоритеты из больших наборов данных, но часто не могут поддерживать согласованность между множественными видами.
IDArb предлагает несколько ключевых улучшений по сравнению с предыдущими методами:
Кросс-видовая и кросс-компонентная внимание: Мы используем модуль внимания, который позволяет интегрировать информацию из различных видов и компонентов, что ведет к более целостному пониманию распределения внутренних компонентов.
Набор данных ARB-Objaverse: Мы создаем новый набор данных, содержащий 5.7 миллиона многовидовых RGB-изображений и их внутренние компоненты, что позволяет эффективно обучать модель в условиях разнообразного освещения.
Обучение с использованием увеличения освещения: Мы разрабатываем стратегию обучения, которая учитывает различные условия освещения, что позволяет модели более эффективно справляться с изменениями в освещении.
IDArb использует диффузионную модель, которая принимает произвольное количество изображений, захваченных в условиях изменяющегося освещения, и предсказывает соответствующие внутренние компоненты, такие как альбедо (albedo), нормали (normals), металлические и шероховатые свойства (metallic and roughness). Архитектура модели основана на предобученной модели Stable Diffusion, которая обеспечивает мощные приоритеты из RGB-домена.
В процессе обучения мы разделяем внутренние компоненты на три группы: альбедо, нормали и металлические/шероховатые свойства. Для каждой группы мы используем текстовые подсказки, чтобы направить модель к различным внутренним компонентам.
Для обучения модели мы разработали набор данных ARB-Objaverse, который включает разнообразные объекты, рендеренные под различными условиями освещения. Этот набор данных позволяет нам значительно увеличить разнообразие входных данных для обучения, что, в свою очередь, улучшает обобщающие способности модели.
Мы провели обширные эксперименты на как синтетических, так и реальных данных. Результаты показывают, что IDArb значительно превосходит существующие методы как по качеству, так и по количеству, достигая состояния искусства в области внутренней декомпозиции.
IDArb способен решать широкий спектр задач, включая:
IDArb представляет собой мощный инструмент для внутренней декомпозиции изображений, который использует современные подходы к обучению и диффузии для достижения высококачественных результатов. Наша модель справляется с проблемами, связанными с изменением освещения и многовидовой согласованностью, что делает ее универсальным решением для различных задач в области компьютерного зрения и графики.
В будущем мы планируем улучшить модель, включая реальные данные через неуправляемые техники и исследуя более эффективные механизмы внимания для обработки плотных входных данных.