Свежая выжимка ml и AI статей - каждый день
С недавним развитием генеративных моделей на основе искусственного интеллекта (AI), создание 3D-контента стало более доступным и эффективным. Однако существующие методы генерации 3D-объектов по-прежнему отстают по качеству от их 2D-аналогов. В данной статье мы рассмотрим новую методику генерации 3D-объектов, основанную на концепции структурированных латентных представлений (Structured LATents, SLAT), которая позволяет создавать высококачественные 3D-активы с различными выходными форматами и гибкостью редактирования.
Традиционные методы генерации 3D-контента сталкиваются с несколькими проблемами. Во-первых, разнообразие 3D-репрезентаций, таких как сетки, облака точек, радиационные поля и 3D-гауссианы, затрудняет создание универсальной модели, способной работать с разными форматами. Во-вторых, многие существующие подходы сосредоточены на генерации геометрии, но не могут эффективно моделировать текстурные детали, что приводит к недостаточной реалистичности.
Большинство текущих моделей генерации изображений (например, GAN и диффузионные модели) достигают выдающихся результатов в 2D, но их применение к 3D-объектам требует дополнительных этапов, таких как текстурирование и подгонка. Это приводит к увеличению времени обработки и снижению качества конечного результата.
Structured LATents (SLAT) представляет собой новый подход, который объединяет структурированные латентные пространства с мощными визуальными представлениями. Основная идея заключается в том, чтобы использовать разреженные структуры 3D в латентном пространстве, что позволяет эффективно декодировать различные 3D-репрезентации, такие как радиационные поля, 3D-гауссианы и сетки.
SLAT определяет локальные латенты на активных вокселях, пересекающих поверхность 3D-объекта. Эти латенты кодируют как геометрическую, так и текстурную информацию, что позволяет сохранить детализированное представление о 3D-активе. Благодаря использованию мощных предварительно обученных визуальных моделей, таких как DINOv2, SLAT может эффективно захватывать детали структуры и внешнего вида.
Методология включает два основных этапа: генерацию разреженной структуры и генерацию локальных латентов. Для этого используются трансформеры с исправленным потоком, которые адаптированы для работы с разреженными структурами.
На первом этапе используется тензорная нейронная сеть, чтобы преобразовать 3D-объекты в разреженные воксели. Это позволяет создать бинарную 3D-сетку, где значения вокселей устанавливаются в 1 для активных и 0 для неактивных. Данная структура обеспечивает высокую разрешающую способность, позволяя моделировать сложные геометрии.
На втором этапе происходит генерация локальных латентов на основе разреженной структуры. Для этого используется специализированный трансформер, который обрабатывает информацию о вокселях и создает латентные представления, содержащие как геометрическую, так и текстурную информацию.
Эксперименты показали, что предложенный метод SLAT превосходит существующие подходы по качеству генерации 3D-активов. Модель способна создавать 3D-объекты с детализированной геометрией и яркими текстурами, что делает ее идеальным инструментом для различных приложений, включая игры, анимацию и виртуальную реальность.
SLAT демонстрирует высокое качество генерации, которое можно оценить по нескольким метрикам, таким как PSNR (Peak Signal-to-Noise Ratio) и LPIPS (Learned Perceptual Image Patch Similarity). В сравнении с другими методами, SLAT показывает значительно лучшие результаты как в текстурной, так и в геометрической fidelities.
Одним из ключевых преимуществ SLAT является его универсальность. Модель может генерировать 3D-объекты на основе текстовых или визуальных подсказок, а также поддерживает гибкие возможности редактирования. Это позволяет пользователям изменять локальные регионы 3D-объектов, добавляя или удаляя элементы без необходимости повторного обучения модели.
Метод SLAT представляет собой значительный шаг вперед в области генерации 3D-контента, предлагая высокое качество, универсальность и гибкость редактирования. Внедрение структурированных латентных представлений открывает новые возможности для создания 3D-активов, которые могут быть адаптированы под различные требования и применения.
Данная работа подчеркивает важность разработки универсальных моделей для 3D-генерации и демонстрирует потенциал SLAT как основы для будущих исследований и приложений в области цифрового производства.