Свежая выжимка ml и AI статей - каждый день
Современные достижения в области генеративных моделей изображений позволяют пользователям создавать детализированные результаты всего лишь по текстовому запросу. Хотя начальные методы, основанные на денойзинговых диффузионных моделях, продемонстрировали впечатляющие результаты в генерации фотореалистичных изображений, их эффективность оставалась низкой, особенно в 3D-домене. Turbo3D представляет собой новую модель, которая стремится устранить этот разрыв, обеспечивая возможность синтезировать детализированные 3D-выходы за доли секунды.
Turbo3D использует двухступенчатую архитектуру, состоящую из генератора и реконструктора. Генератор — это высокоэффективная модель, которая работает в латентном пространстве и генерирует многовидовые (MV) изображения, в то время как реконструктор преобразует их в 3D-объекты.
Генератор: Turbo3D использует 4-шаговый, 4-видовой диффузионный генератор, который был дистиллирован с помощью новой техники, известной как Dual-Teacher Distillation. Эта техника позволяет модели изучать консистентность видов от многовидового учителя и фотореализм от одновидового учителя.
Реконструктор: Вместо того чтобы работать с пиксельными пространствами, реконструктор принимает латентные представления, что значительно ускоряет процесс. Это позволяет избежать дополнительных временных затрат на декодирование изображений.
Существующие подходы к генерации 3D объектов из текстовых запросов можно разделить на две категории: генеративные и основанные на оптимизации. Первые напрямую создают 3D представления, в то время как вторые оптимизируют 3D репрезентации, используя предобученные 2D модели. Однако подходы на основе оптимизации часто требуют значительного времени, что делает их неэффективными для быстрого создания 3D объектов.
Turbo3D предлагает уникальный подход к дистилляции, который включает в себя два учителя. Многовидовой учитель обучает модель консистентности между видами, а одновидовой учитель обеспечивает фотореалистичность. Это позволяет избежать проблем, связанных с "коллапсом режимов", которые возникают, когда модель слишком сильно фокусируется на одном стиле данных.
Дистилляция осуществляется с использованием потерь DMD (Distribution Matching Distillation), которые минимизируют расхождение между распределениями данных и выходами модели. Это позволяет создать мощную генеративную модель, способную к быстрой генерации 3D объектов.
Turbo3D также включает в себя латентный GS-LRM (Gaussian Splatting Latent Reconstruction Model), который обеспечивает эффективную реконструкцию 3D объектов из многовидовых латентных представлений. Это позволяет избежать затрат на декодирование изображений в пиксельное пространство, что значительно улучшает скорость обработки.
Turbo3D был протестирован на наборе данных Objaverse, который содержит около 400 тысяч экземпляров с текстовыми подписями. Результаты показывают, что Turbo3D способен генерировать высококачественные 3D объекты менее чем за одну секунду, при этом достигая качества, сопоставимого с предыдущими передовыми методами.
В сравнении с другими методами, такими как Instant3D и LGM, Turbo3D демонстрирует значительное преимущество как по качеству, так и по скорости. Например, Turbo3D генерирует 3D объекты с наивысшими оценками CLIP и VQA, при этом затрачивая всего 0.35 секунды на генерацию.
Turbo3D представляет собой значительный шаг вперед в области генерации 3D моделей из текстовых запросов. Используя инновационные подходы, такие как дистилляция с двумя учителями и латентные модели, Turbo3D не только ускоряет процесс генерации, но и улучшает качество выходных данных. Это открывает новые возможности для применения в различных областях, включая игры, анимацию и виртуальную реальность.