SAR3D: Авторегрессивная генерация и понимание 3D объектов с помощью мультимасштабного 3D VQVAE

В последние годы авторегрессивные модели продемонстрировали выдающиеся результаты в различных областях, от моделей больших языков (LLM) до моделей больших мультимодальных данных (LMM) и генерации 2D контента. Эти модели подошли ближе к достижению искусственного общего интеллекта (AGI), предсказывая следующий токен или масштаб. Однако применение авторегрессивных подходов к генерации и пониманию 3D объектов остается малоисследованной территорией.

Авторегрессивные модели, известные своими достижениями в языковом моделировании и генерации изображений, теперь находят применение и в 3D пространстве. В статье представлен новый подход под названием SAR3D (Scale AutoRegressive 3D), который использует мультимасштабный 3D вектор-квантованный вариационный автокодировщик (VQVAE) для эффективной авторегрессивной генерации и детального понимания 3D объектов.

Основные идеи SAR3D

SAR3D предлагает следующие ключевые инновации:

Мультимасштабный VQVAE: Вместо предсказания следующего токена, SAR3D предсказывает следующий масштаб в латентном представлении 3D объекта, что значительно ускоряет процесс генерации, сокращая время до 0,82 секунды на A6000 GPU.
Генерация и понимание 3D: Используя токены, обогащенные иерархической 3D информацией, SAR3D позволяет не только генерировать 3D объекты, но и интерпретировать их с помощью предобученных LLM.
Эффективность и качество: Эксперименты показывают, что SAR3D превосходит существующие методы 3D генерации как по скорости, так и по качеству, а также позволяет LLM генерировать подробные описания 3D моделей.

Методология

1. Мультимасштабный 3D VQVAE

SAR3D начинается с кодирования 3D объекта в мультимасштабное латентное пространство с помощью VQVAE. Этот процесс включает в себя:

Кодирование многоугольных RGB-D изображений и параметров камеры в латентное представление триплана.
Квантование этого представления на различные масштабы, используя общий кодбук для всех масштабов.

2. Авторегрессивная генерация 3D

Для генерации 3D объектов SAR3D использует:

Авторегрессивную модель, которая предсказывает следующий масштаб латентного триплана на основе предыдущих масштабов и условий (например, текстового описания или изображения).
Условную генерацию: Модель может генерировать 3D объекты на основе текстового или изображения, используя CLIP или DINOv2 для извлечения соответствующих признаков.

3. SAR3D-LLM для понимания 3D объектов

Для понимания 3D объектов:

Токены из VQVAE проецируются в пространство признаков LLM, что позволяет модели интерпретировать и описывать 3D объекты.
Трансформер используется для обработки мультимодальных входных данных, включая текст и 3D токены.

Эксперименты

Датасеты и реализация

Датасеты: Использовались рендеринги из G-Objaverse и подмножество высококачественных 3D объектов.
Реализация: Модель обучалась на 7 NVIDIA A100 GPU, используя AdamW оптимизатор с различными гиперпараметрами для различных задач.

Результаты

Генерация 3D: SAR3D показывает превосходство по сравнению с существующими методами в скорости и качестве, особенно в задачах генерации на основе изображений.
Понимание 3D: SAR3D-LLM способен генерировать подробные описания 3D объектов, включая их категорию, детали и пространственные отношения между частями.

Ограничения и будущие направления

Мультимодальность: В настоящее время SAR3D использует две отдельные авторегрессивные модели для генерации и понимания. Будущие работы могут сосредоточиться на создании единой мультимодальной модели.
Качество геометрии и текстуры: Ограничено методом объемного рендеринга. Использование более эффективных 3D представлений или каскадной генерации может улучшить качество.
Масштабируемость: Хотя SAR3D демонстрирует потенциал для масштабирования, его поведение при масштабировании еще не было полностью исследовано.

Заключение

SAR3D представляет собой значительный шаг вперед в области 3D генерации и понимания, предлагая быстрый и качественный метод создания и интерпретации 3D объектов. Использование мультимасштабного VQVAE и авторегрессивного моделирования открывает новые возможности для мультимодальных приложений AI, расширяя границы того, что возможно в 3D пространстве.

Статья на arxiv Оригинал pdf autoregression comprehension multiscale

Ай Дайджест