Turbo3D: Ультрабыстрое Генерирование 3D Моделей из Текста

Современные достижения в области генеративных моделей изображений позволяют пользователям создавать детализированные результаты всего лишь по текстовому запросу. Хотя начальные методы, основанные на денойзинговых диффузионных моделях, продемонстрировали впечатляющие результаты в генерации фотореалистичных изображений, их эффективность оставалась низкой, особенно в 3D-домене. Turbo3D представляет собой новую модель, которая стремится устранить этот разрыв, обеспечивая возможность синтезировать детализированные 3D-выходы за доли секунды.

Архитектура Turbo3D

Turbo3D использует двухступенчатую архитектуру, состоящую из генератора и реконструктора. Генератор — это высокоэффективная модель, которая работает в латентном пространстве и генерирует многовидовые (MV) изображения, в то время как реконструктор преобразует их в 3D-объекты.

Генерация и Реконструкция

Генератор: Turbo3D использует 4-шаговый, 4-видовой диффузионный генератор, который был дистиллирован с помощью новой техники, известной как Dual-Teacher Distillation. Эта техника позволяет модели изучать консистентность видов от многовидового учителя и фотореализм от одновидового учителя.
Реконструктор: Вместо того чтобы работать с пиксельными пространствами, реконструктор принимает латентные представления, что значительно ускоряет процесс. Это позволяет избежать дополнительных временных затрат на декодирование изображений.

Проблемы в 3D Генерации

Существующие подходы к генерации 3D объектов из текстовых запросов можно разделить на две категории: генеративные и основанные на оптимизации. Первые напрямую создают 3D представления, в то время как вторые оптимизируют 3D репрезентации, используя предобученные 2D модели. Однако подходы на основе оптимизации часто требуют значительного времени, что делает их неэффективными для быстрого создания 3D объектов.

Dual-Teacher Distillation

Turbo3D предлагает уникальный подход к дистилляции, который включает в себя два учителя. Многовидовой учитель обучает модель консистентности между видами, а одновидовой учитель обеспечивает фотореалистичность. Это позволяет избежать проблем, связанных с "коллапсом режимов", которые возникают, когда модель слишком сильно фокусируется на одном стиле данных.

Процесс Дистилляции

Дистилляция осуществляется с использованием потерь DMD (Distribution Matching Distillation), которые минимизируют расхождение между распределениями данных и выходами модели. Это позволяет создать мощную генеративную модель, способную к быстрой генерации 3D объектов.

Латентный GS-LRM

Turbo3D также включает в себя латентный GS-LRM (Gaussian Splatting Latent Reconstruction Model), который обеспечивает эффективную реконструкцию 3D объектов из многовидовых латентных представлений. Это позволяет избежать затрат на декодирование изображений в пиксельное пространство, что значительно улучшает скорость обработки.

Эксперименты и Результаты

Turbo3D был протестирован на наборе данных Objaverse, который содержит около 400 тысяч экземпляров с текстовыми подписями. Результаты показывают, что Turbo3D способен генерировать высококачественные 3D объекты менее чем за одну секунду, при этом достигая качества, сопоставимого с предыдущими передовыми методами.

Сравнение с Существующими Методами

В сравнении с другими методами, такими как Instant3D и LGM, Turbo3D демонстрирует значительное преимущество как по качеству, так и по скорости. Например, Turbo3D генерирует 3D объекты с наивысшими оценками CLIP и VQA, при этом затрачивая всего 0.35 секунды на генерацию.

Заключение

Turbo3D представляет собой значительный шаг вперед в области генерации 3D моделей из текстовых запросов. Используя инновационные подходы, такие как дистилляция с двумя учителями и латентные модели, Turbo3D не только ускоряет процесс генерации, но и улучшает качество выходных данных. Это открывает новые возможности для применения в различных областях, включая игры, анимацию и виртуальную реальность.

Статья на arxiv Оригинал pdf gaussian diffusion distillation

Ай Дайджест