TEXGen: Генеративная модель диффузии для текстур сеток

Создание текстур для 3D-сеток является важной задачей в области компьютерной графики и компьютерного зрения, имеющей множество приложений в виртуальной реальности, дизайне игр и анимации. Однако многие современные методы, основанные на обучении, ограничены в генерации текстур только для специфических категорий объектов из-за проблем с масштабируемостью и ограничениями данных. В этой статье мы представим TEXGen, новую генеративную модель, способную напрямую генерировать высококачественные текстуры для 3D-сеток, используя текстовые подсказки и изображения.

Проблема и подход

Традиционно для текстурирования 3D-сеток использовались методы оптимизации на этапе тестирования, которые полагались на предварительно обученные 2D-диффузионные модели. Эти методы, такие как score distillation sampling, имеют свои недостатки, включая высокие вычислительные затраты и проблемы с согласованностью текстур. В отличие от них, TEXGen фокусируется на обучении непосредственно в пространстве текстур UV и использует архитектуру сети, которая сочетает свертки на UV-картах с вниманием на облаках точек.

Архитектура модели

TEXGen использует масштабируемую сеть, состоящую из гибридных 2D-3D блоков, что позволяет эффективно обрабатывать высокоразрешающие текстуры. Эта архитектура обеспечивает локальное и глобальное взаимодействие между признаками, что особенно важно для генерации текстур с высоким разрешением. Мы обучили модель с 700 миллионами параметров, которая может генерировать текстуры UV, руководствуясь текстовыми подсказками и одноточечными изображениями.

Основные этапы работы модели

Представление данных: Мы используем UV-карты в качестве представления текстур, что позволяет эффективно организовать 3D-атрибуты на 2D-плоскости.
Конструкция и обучение модели: Разработка гибридной 2D-3D сети, которая эффективно обрабатывает уникальные характеристики текстурных карт. Мы обучаем диффузионную модель для генерации текстур на основе одноточечных изображений и текстовых описаний.
Инференс: После завершения обучения модель может инициализироваться с помощью случайной текстуры и итеративно очищаться для генерации высококачественных текстур.

Метод

1. Представление для синтеза текстур

UV-карты позволяют преобразовать 3D-структуры в компактное 2D-представление, что существенно упрощает задачу генерации текстур. Однако, несмотря на свои преимущества, UV-карты могут терять глобальную 3D-согласованность из-за фрагментации, присущей этому процессу. TEXGen решает эту проблему, сочетая преимущества UV-пространства с 3D-точками, чтобы поддерживать глобальную согласованность и непрерывность.

2. Конструкция модели

Основой нашей модели является гибридная 2D-3D сеть, которая учится извлекать признаки как в 2D, так и в 3D пространстве. Мы используем текстовые подсказки для управления генерацией, что делает модель более доступной и отзывчивой на пользовательские намерения.

3. Обучение диффузии

Во время обучения мы добавляем шум к реальной текстуре и учим сеть предсказывать, как убрать этот шум. Мы используем метод v-prediction для вычисления потерь диффузии и дополнительный контрольный сигнал для улучшения качества синтезируемых текстур.

4. Генерация текстур

После завершения обучения, модель может генерировать текстуры для 3D-сеток, начиная с зашумленной текстуры и используя условную информацию для итеративного улучшения результата. Мы также реализуем возможности для текстурного инпейнтинга и завершения текстур на основе разреженных изображений.

Результаты и сравнения

Мы провели обширные эксперименты, используя набор данных Objaverse, содержащий более 800,000 3D-сеток. TEXGen продемонстрировала выдающиеся результаты в сравнении с другими современными методами, такими как TEXTure, Text2Tex и Paint3D. Мы провели качественные и количественные сравнения, которые показали, что TEXGen генерирует более детализированные и согласованные текстуры, избегая распространенных проблем, таких как проблема Януса.

Качественные результаты

Визуальные примеры показывают, что TEXGen может синтезировать текстуры с богатой локальной детализацией и глобальной согласованностью. Например, текстуры на перьях птицы демонстрируют способность модели генерировать высокодетализированные текстуры, сохраняя информацию о состоянии.

Количественные результаты

Мы провели количественные сравнения, используя метрики FID и KID, которые показали, что TEXGen значительно превосходит другие методы как по качеству текстур, так и по времени выполнения.

Применения

TEXGen открывает новые возможности для различных приложений, включая:

Текстурное синтезирование на основе текста: Генерация текстур, основанных только на текстовых подсказках.
Инпейнтинг текстур: Заполнение пропусков в текстурах на основе неполных данных.
Завершение текстур из разреженных видов: Восстановление текстур на основе нескольких изображений.

Заключение

TEXGen представляет собой значительный шаг вперед в области генерации текстур для 3D-объектов. Эта модель не только демонстрирует высокое качество генерации, но и устанавливает новый стандарт в области текстурирования, открывая возможности для дальнейших исследований и разработок в этой области. Мы уверены, что TEXGen станет основой для будущих приложений и улучшений в области генерации текстур и 3D-графики в целом.

Статья на arxiv Оригинал pdf synthesis attention convolution

Ай Дайджест