Свежая выжимка ml и AI статей - каждый день
Генерация 3D-контента — это область, которая быстро развивается и имеет огромный потенциал для трансформации виртуальной реальности, киноиндустрии и игровой индустрии. В последние годы были разработаны различные методы для создания 3D-объектов, которые можно разделить на два основных подхода: 2D-подъем (2D-lifting) и создание нативных 3D моделей диффузии.
Методы 2D-подъема используют предварительно обученные 2D модели диффузии для создания 3D-объектов, что позволяет использовать существующие приоры 2D-диффузии. Однако, этот подход сталкивается с рядом проблем, таких как дорогая оптимизация, проблема Януса (Janus problem) и несоответствие между видами.
Нативные 3D модели диффузии обучаются с нуля для генерации 3D-контента, что обеспечивает большую универсальность, эффективность и контроль над процессом генерации. Тем не менее, в этом направлении также существуют значительные вызовы:
Формат входных данных для 3D VAE: Большинство методов используют точечные облака в качестве входных данных, но это ограничивает возможность кодирования высокочастотных деталей текстур и требует больших наборов данных, которые сложно собрать.
Структура латентного пространства: Из-за разнообразия геометрии, цвета и размера 3D-объектов, большинство 3D VAE используют перестановочно-инвариантное множество латентных представлений, что не позволяет легко сопоставить изменения в латентном пространстве с изменениями в изображении.
Выбор 3D выходных представлений: Существующие решения либо выдают текстурные SDF (Signed Distance Function), требующие дополнительной обработки для отображения, либо используют объемные три-плоскости, которые требуют значительных вычислительных ресурсов для рендеринга высокого разрешения.
В этой статье мы представляем новый фреймворк для генерации 3D-контента, который решает вышеупомянутые проблемы и предлагает масштабируемую, высококачественную генерацию 3D с интерактивным латентным пространством, структурированным в виде точечного облака.
Мы предлагаем использовать многоугольные RGB-D-N (RGB, Depth, Normal) изображения как входные данные для 3D VAE. Это позволяет нам эффективно кодировать 3D атрибуты объекта, включая его текстуру, геометрию и нормали. В отличие от прямого использования точечных облаков, наш подход позволяет более полно кодировать объект и поддерживает генерацию на основе различных условий, таких как текстовые описания или изображения.
Наш метод включает в себя преобразование входных данных в латентное пространство, которое затем используется для генерации 3D-объектов. Мы используем архитектуру, основанную на трансформере, для кодирования многоугольных изображений в набор латентных токенов, которые затем проецируются на 3D-многообразие через механизм кросс-аттеншена, создавая структурированное латентное пространство точечного облака.
Для генерации высококачественных 3D-объектов мы используем декодер, который преобразует латентные коды в сурфельные гауссианы (surfel Gaussians). Это позволяет нам эффективно рендерить объекты с высоким разрешением и детализацией.
После обучения 3D VAE, мы проводим кассетную латентную диффузию, используя модель потока (flow matching), чтобы улучшить разделение формы и текстуры. Мы сначала обучаем модель диффузии для точечного облака, чтобы определить общую структуру объекта, а затем добавляем модель диффузии для текстур, что позволяет генерировать объекты с различными текстурами на основе одной и той же геометрии.
Наш подход демонстрирует превосходные результаты в генерации 3D-объектов как на основе текста, так и на основе изображений. Он обеспечивает высокую степень контроля над процессом генерации, позволяя пользователям интерактивно редактировать 3D-объекты через манипуляции с латентным пространством точечного облака. Это открывает новые возможности для художников и дизайнеров в области 3D-моделирования и анимации.
В заключение, наш метод "Гауссиан Энисинг" представляет собой новый подход к генерации 3D-контента, который сочетает в себе эффективность и качество нативных 3D моделей диффузии с интерактивностью и гибкостью, обеспечиваемой структурированным латентным пространством. Это позволяет не только создавать высококачественные 3D-объекты, но и предоставляет инструменты для их интерактивного редактирования, что делает процесс создания 3D-контента более доступным и креативным.