Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

SAR3D: Авторегрессивная генерация и понимание 3D объектов с помощью мультимасштабного 3D VQVAE

В последние годы авторегрессивные модели продемонстрировали выдающиеся результаты в различных областях, от моделей больших языков (LLM) до моделей больших мультимодальных данных (LMM) и генерации 2D контента. Эти модели подошли ближе к достижению искусственного общего интеллекта (AGI), предсказывая следующий токен или масштаб. Однако применение авторегрессивных подходов к генерации и пониманию 3D объектов остается малоисследованной территорией.

Авторегрессивные модели, известные своими достижениями в языковом моделировании и генерации изображений, теперь находят применение и в 3D пространстве. В статье представлен новый подход под названием SAR3D (Scale AutoRegressive 3D), который использует мультимасштабный 3D вектор-квантованный вариационный автокодировщик (VQVAE) для эффективной авторегрессивной генерации и детального понимания 3D объектов.

Основные идеи SAR3D

SAR3D предлагает следующие ключевые инновации:

  1. Мультимасштабный VQVAE: Вместо предсказания следующего токена, SAR3D предсказывает следующий масштаб в латентном представлении 3D объекта, что значительно ускоряет процесс генерации, сокращая время до 0,82 секунды на A6000 GPU.

  2. Генерация и понимание 3D: Используя токены, обогащенные иерархической 3D информацией, SAR3D позволяет не только генерировать 3D объекты, но и интерпретировать их с помощью предобученных LLM.

  3. Эффективность и качество: Эксперименты показывают, что SAR3D превосходит существующие методы 3D генерации как по скорости, так и по качеству, а также позволяет LLM генерировать подробные описания 3D моделей.

Методология

1. Мультимасштабный 3D VQVAE

SAR3D начинается с кодирования 3D объекта в мультимасштабное латентное пространство с помощью VQVAE. Этот процесс включает в себя:

  • Кодирование многоугольных RGB-D изображений и параметров камеры в латентное представление триплана.
  • Квантование этого представления на различные масштабы, используя общий кодбук для всех масштабов.

2. Авторегрессивная генерация 3D

Для генерации 3D объектов SAR3D использует:

  • Авторегрессивную модель, которая предсказывает следующий масштаб латентного триплана на основе предыдущих масштабов и условий (например, текстового описания или изображения).
  • Условную генерацию: Модель может генерировать 3D объекты на основе текстового или изображения, используя CLIP или DINOv2 для извлечения соответствующих признаков.

3. SAR3D-LLM для понимания 3D объектов

Для понимания 3D объектов:

  • Токены из VQVAE проецируются в пространство признаков LLM, что позволяет модели интерпретировать и описывать 3D объекты.
  • Трансформер используется для обработки мультимодальных входных данных, включая текст и 3D токены.

Эксперименты

Датасеты и реализация

  • Датасеты: Использовались рендеринги из G-Objaverse и подмножество высококачественных 3D объектов.
  • Реализация: Модель обучалась на 7 NVIDIA A100 GPU, используя AdamW оптимизатор с различными гиперпараметрами для различных задач.

Результаты

  • Генерация 3D: SAR3D показывает превосходство по сравнению с существующими методами в скорости и качестве, особенно в задачах генерации на основе изображений.
  • Понимание 3D: SAR3D-LLM способен генерировать подробные описания 3D объектов, включая их категорию, детали и пространственные отношения между частями.

Ограничения и будущие направления

  • Мультимодальность: В настоящее время SAR3D использует две отдельные авторегрессивные модели для генерации и понимания. Будущие работы могут сосредоточиться на создании единой мультимодальной модели.
  • Качество геометрии и текстуры: Ограничено методом объемного рендеринга. Использование более эффективных 3D представлений или каскадной генерации может улучшить качество.
  • Масштабируемость: Хотя SAR3D демонстрирует потенциал для масштабирования, его поведение при масштабировании еще не было полностью исследовано.

Заключение

SAR3D представляет собой значительный шаг вперед в области 3D генерации и понимания, предлагая быстрый и качественный метод создания и интерпретации 3D объектов. Использование мультимасштабного VQVAE и авторегрессивного моделирования открывает новые возможности для мультимодальных приложений AI, расширяя границы того, что возможно в 3D пространстве.