IDArb: Интеграция диффузионного моделирования для внутренней декомпозиции изображений

Восстановление геометрической и материалной информации из изображений является одной из ключевых задач в области компьютерного зрения и графики. Этот процесс, известный как обратное рендеринг (inverse rendering), представляет собой сложную задачу, требующую учета различных факторов, таких как освещение, свойства материалов и геометрия поверхности объектов. Традиционные методы, основанные на оптимизации, часто требуют значительного времени для вычислений и не всегда обеспечивают точные результаты из-за амбигуити (неоднозначности) между освещением и материалами. В последние годы методы, основанные на обучении, начали активно использоваться для решения этой проблемы, но они сталкиваются с трудностями при поддержании согласованности между многими видами.

В данной статье мы представляем IDArb — модель, основанную на диффузии, которая предназначена для выполнения внутренней декомпозиции изображений с произвольным количеством входных видов и изменяющимся освещением. Мы обсудим архитектуру модели, используемые методики и результаты, показывающие, что IDArb превосходит существующие методы как по качеству, так и по количеству.

Проблема внутренней декомпозиции

Цвет, который мы воспринимаем от объектов, является результатом сложного взаимодействия между падающим светом, свойствами материалов и геометрией поверхности. Восстановление этих внутренних свойств из захваченных изображений является основной задачей в компьютерном зрении, открывающей возможности для различных приложений, таких как рендеринг (relighting) и создание фотореалистичного 3D-контента.

Существует два основных подхода к обратному рендерингу: методы, основанные на оптимизации, и методы, основанные на обучении. Первые требуют больших объемов многовидовых изображений и фокусируются на оптимизации внутренних свойств для каждого случая отдельно, что может занять много времени и привести к неоптимальным решениям. Методы, основанные на обучении, используют полезные приоритеты из больших наборов данных, но часто не могут поддерживать согласованность между множественными видами.

Модель IDArb

Основные особенности

IDArb предлагает несколько ключевых улучшений по сравнению с предыдущими методами:

Кросс-видовая и кросс-компонентная внимание: Мы используем модуль внимания, который позволяет интегрировать информацию из различных видов и компонентов, что ведет к более целостному пониманию распределения внутренних компонентов.
Набор данных ARB-Objaverse: Мы создаем новый набор данных, содержащий 5.7 миллиона многовидовых RGB-изображений и их внутренние компоненты, что позволяет эффективно обучать модель в условиях разнообразного освещения.
Обучение с использованием увеличения освещения: Мы разрабатываем стратегию обучения, которая учитывает различные условия освещения, что позволяет модели более эффективно справляться с изменениями в освещении.

Архитектура модели

IDArb использует диффузионную модель, которая принимает произвольное количество изображений, захваченных в условиях изменяющегося освещения, и предсказывает соответствующие внутренние компоненты, такие как альбедо (albedo), нормали (normals), металлические и шероховатые свойства (metallic and roughness). Архитектура модели основана на предобученной модели Stable Diffusion, которая обеспечивает мощные приоритеты из RGB-домена.

В процессе обучения мы разделяем внутренние компоненты на три группы: альбедо, нормали и металлические/шероховатые свойства. Для каждой группы мы используем текстовые подсказки, чтобы направить модель к различным внутренним компонентам.

Обучение и данные

Для обучения модели мы разработали набор данных ARB-Objaverse, который включает разнообразные объекты, рендеренные под различными условиями освещения. Этот набор данных позволяет нам значительно увеличить разнообразие входных данных для обучения, что, в свою очередь, улучшает обобщающие способности модели.

Оценка производительности

Мы провели обширные эксперименты на как синтетических, так и реальных данных. Результаты показывают, что IDArb значительно превосходит существующие методы как по качеству, так и по количеству, достигая состояния искусства в области внутренней декомпозиции.

Применения

IDArb способен решать широкий спектр задач, включая:

Рендеринг изображений: Позволяет изменять освещение в захваченных изображениях.
Редактирование материалов: Модель может использоваться для изменения свойств материалов в визуализациях.
Фотометрическая стереоскопия: Позволяет извлекать нормали и альбедо из изображений, захваченных при различных условиях освещения.
3D-реконструкция: IDArb может служить основой для более сложных методов 3D-реконструкции, обеспечивая точные внутренние компоненты.

Заключение

IDArb представляет собой мощный инструмент для внутренней декомпозиции изображений, который использует современные подходы к обучению и диффузии для достижения высококачественных результатов. Наша модель справляется с проблемами, связанными с изменением освещения и многовидовой согласованностью, что делает ее универсальным решением для различных задач в области компьютерного зрения и графики.

В будущем мы планируем улучшить модель, включая реальные данные через неуправляемые техники и исследуя более эффективные механизмы внимания для обработки плотных входных данных.

Статья на arxiv Оригинал pdf reconstruction dataset attention

Ай Дайджест