Свежая выжимка ml и AI статей - каждый день
Восстановление геометрии и материалов объектов из изображений представляет собой сложную задачу в области компьютерной графики и компьютерного зрения. Эта задача, известная как обратное рендеринг (inverse rendering), имеет широкие применения, включая видеоигры, дополненную и виртуальную реальность, а также робототехнику. В данной статье мы рассмотрим новый подход, предложенный в работе "Neural Light Rig", который использует многосветовое диффузионное моделирование для улучшения оценки нормалей и физических материалов объектов на основе одного изображения.
Восстановление нормалей и материалов из одного изображения является плохо обусловленной задачей. Это связано с тем, что одно изображение может быть получено при различных условиях освещения и с использованием различных материалов, что затрудняет точное определение геометрии и свойств поверхности. Традиционные методы, такие как фотометрическая стереоскопия, требуют множества изображений, снятых с одного и того же ракурса при различных условиях освещения. Однако такие методы часто требуют сложных систем захвата, что делает их непрактичными для использования в реальном мире.
Neural Light Rig использует многосветовое диффузионное моделирование, чтобы генерировать изображения, освещенные различными точечными источниками света. Это позволяет создавать множество последовательных изображений, которые могут быть использованы для снижения неопределенности в оценке нормалей и материалов. Модель диффузии обучается на синтетическом наборе данных, созданном с помощью Blender, что позволяет ей генерировать качественные изображения при различных условиях освещения.
Модель принимает на вход одно изображение и генерирует несколько изображений, каждое из которых освещено с разных направлений. Это позволяет улучшить контекстуальную информацию для более точной оценки нормалей и материалов.
После генерации многосветовых изображений, Neural Light Rig использует модель G-buffer для оценки нормалей и физических свойств материалов, таких как альбедо, шероховатость и металлическость. Для этого используется архитектура U-Net, которая хорошо подходит для задач регрессии и позволяет эффективно обрабатывать изображения высокого разрешения.
Модель G-buffer принимает на вход многосветовые изображения и генерирует 8-канальную G-buffer, содержащую нормали и карты PBR (physically-based rendering). Это позволяет эффективно моделировать взаимодействие света и поверхности объекта, что критически важно для точного рендеринга.
Для обучения моделей Neural Light Rig был создан синтетический набор данных LightProp, который включает в себя 80 000 объектов с соответствующими картами нормалей и PBR материалов. Каждый объект рендерится с различных ракурсов и при различных условиях освещения, что позволяет модели учиться на разнообразных данных и улучшать свою обобщающую способность.
Эксперименты показывают, что Neural Light Rig значительно превосходит существующие методы в задаче оценки нормалей. Модель демонстрирует более низкие значения угловых ошибок и высокую точность при различных порогах, что подтверждает ее эффективность в восстановлении сложных геометрий поверхности.
Для оценки физических свойств материалов Neural Light Rig также показывает превосходные результаты. Модель успешно генерирует карты альбедо, шероховатости и металлическости, которые соответствуют реальным материалам, что позволяет создавать более реалистичные визуализации.
Кроме того, Neural Light Rig позволяет выполнять релайтинг изображений, сохраняя детали и текстуры объектов. Это достигается за счет использования многосветовых изображений, которые помогают устранить эффекты пересвеченности и затемнения, часто возникающие при рендеринге.
Neural Light Rig представляет собой значительный шаг вперед в области восстановления нормалей и материалов из изображений. Используя многосветовое диффузионное моделирование, модель не только улучшает точность оценок, но и позволяет создавать реалистичные визуализации объектов при различных условиях освещения. В будущем планируется расширение данного подхода для более сложных сцен и интеграция с системами 3D-реконструкции.
Таким образом, Neural Light Rig открывает новые возможности для применения в компьютерной графике и компьютерном зрении, позволяя создавать более точные и реалистичные изображения объектов на основе ограниченного количества данных.