Свежая выжимка ml и AI статей - каждый день
В последние годы авторегрессивные модели продемонстрировали выдающиеся результаты в различных областях, от моделей больших языков (LLM) до моделей больших мультимодальных данных (LMM) и генерации 2D контента. Эти модели подошли ближе к достижению искусственного общего интеллекта (AGI), предсказывая следующий токен или масштаб. Однако применение авторегрессивных подходов к генерации и пониманию 3D объектов остается малоисследованной территорией.
Авторегрессивные модели, известные своими достижениями в языковом моделировании и генерации изображений, теперь находят применение и в 3D пространстве. В статье представлен новый подход под названием SAR3D (Scale AutoRegressive 3D), который использует мультимасштабный 3D вектор-квантованный вариационный автокодировщик (VQVAE) для эффективной авторегрессивной генерации и детального понимания 3D объектов.
SAR3D предлагает следующие ключевые инновации:
Мультимасштабный VQVAE: Вместо предсказания следующего токена, SAR3D предсказывает следующий масштаб в латентном представлении 3D объекта, что значительно ускоряет процесс генерации, сокращая время до 0,82 секунды на A6000 GPU.
Генерация и понимание 3D: Используя токены, обогащенные иерархической 3D информацией, SAR3D позволяет не только генерировать 3D объекты, но и интерпретировать их с помощью предобученных LLM.
Эффективность и качество: Эксперименты показывают, что SAR3D превосходит существующие методы 3D генерации как по скорости, так и по качеству, а также позволяет LLM генерировать подробные описания 3D моделей.
SAR3D начинается с кодирования 3D объекта в мультимасштабное латентное пространство с помощью VQVAE. Этот процесс включает в себя:
Для генерации 3D объектов SAR3D использует:
Для понимания 3D объектов:
SAR3D представляет собой значительный шаг вперед в области 3D генерации и понимания, предлагая быстрый и качественный метод создания и интерпретации 3D объектов. Использование мультимасштабного VQVAE и авторегрессивного моделирования открывает новые возможности для мультимодальных приложений AI, расширяя границы того, что возможно в 3D пространстве.