StdGEN: Генерация 3D персонажей с семантическим разложением из одной изображения

Создание высококачественных 3D персонажей из одного изображения имеет множество применений в виртуальной реальности, видеоиграх, кинопроизводстве и других областях. Однако, существующие методы сталкиваются с проблемами, такими как ограниченная разлагаемость, неудовлетворительное качество и длительное время оптимизации. В этом контексте, мы представляем StdGEN — инновационный подход, который позволяет генерировать семантически разложенные 3D персонажи высокого качества всего за три минуты.

Основные концепции StdGEN

Семантическое разложение

StdGEN предлагает новый подход к генерации 3D персонажей, где каждый элемент персонажа (тело, одежда, волосы) создается как отдельный семантический компонент. Это позволяет легко редактировать, анимировать и настраивать персонажей, значительно повышая их функциональность и применимость в различных приложениях.

Semantic-aware Large Reconstruction Model (S-LRM)

В сердце StdGEN находится S-LRM — модель на базе трансформеров, которая способна одновременно реконструировать геометрию, цвет и семантику из многоугольных изображений. S-LRM использует трипланарное представление для эффективного восстановления 3D объектов.

Трипланарное декодирование: S-LRM преобразует входные изображения в трипланарные токены, которые затем декодируются для получения семантических, цветовых и плотностных полей.
Дифференцируемая экстракция поверхности: Модель использует многослойную схему извлечения семантических поверхностей, которая позволяет получать сетки из гибридных неявных полей.

Этапы генерации

Мультивью генерация и канонизация:
- Сначала изображение персонажа в произвольной позе преобразуется в каноническую A-позу.
- Затем генерируются многоугольные изображения и карты нормалей для различных углов обзора.
Реконструкция с помощью S-LRM:
- Генерируемые многоугольные изображения обрабатываются S-LRM для создания геометрии, цвета и семантических полей персонажа.
Уточнение сетки:
- После получения грубой сетки, она уточняется с помощью итеративного многослойного метода, используя генерируемые 2D изображения и карты нормалей как руководство.

Эффективность и производительность

StdGEN демонстрирует значительные улучшения по сравнению с существующими методами:

Скорость: Генерация 3D персонажей занимает всего несколько минут.
Качество: Высокое разрешение и детализация текстур и геометрии.
Разлагаемость: Возможность создания отдельных компонентов персонажа, что облегчает их дальнейшую обработку.

Эксперименты и результаты

Набор данных Anime3D++

Для обучения и тестирования StdGEN был создан набор данных Anime3D++, который включает в себя высококачественные 3D модели аниме-персонажей с семантическими аннотациями для различных поз и углов обзора.

Сравнение с существующими методами

StdGEN превзошел все существующие базовые модели в генерации 3D персонажей, показав превосходство в таких метриках, как SSIM, LPIPS, FID и CLIP Similarity. Качество генерируемых моделей было подтверждено как количественно, так и качественно через пользовательские исследования.

Применения

3D анимация: Разложенные модели легко анимируются, обеспечивая более реалистичное движение.
3D редактирование: Возможность редактирования персонажей в 2D пространстве и последующей трансформации изменений в 3D.

Заключение

StdGEN представляет собой значительный шаг вперед в области генерации 3D персонажей, предлагая быстрый, эффективный и высококачественный метод создания разложенных 3D моделей из одной изображения. Эта технология открывает новые возможности для виртуальной реальности, игровой индустрии и кинопроизводства, предоставляя инструменты для создания более детализированных и настраиваемых персонажей.

Статья на arxiv Оригинал pdf geometry semantics reconstruction

Ай Дайджест