SAR3D: Авторегрессивная генерация и понимание 3D объектов с помощью мультимасштабного 3D VQVAE
Авторегрессионные модели продемонстрировали выдающийся успех в различных областях, начиная от крупных языковых моделей (LLMs) до крупных мультимодальных моделей (LMMs) и генерации двумерного контента, приближаясь к достижению искусственного общего интеллекта (AGI). Несмотря на эти достижения, применение авторегрессионных подходов к генерации и пониманию трехмерных объектов остается в значительной степени неизведанным. В данной статье представляется Scale AutoRegressive 3D (SAR3D), новая структура, которая использует многомасштабный трехмерный векторно-квантованный вариационный автокодировщик (VQVAE) для токенизации 3D объектов с целью эффективной авторегрессионной генерации и детального понимания. Предсказывая следующий масштаб в многомасштабном латентном представлении вместо следующего одиночного токена, SAR3D значительно сокращает время генерации, позволяя создавать трехмерные объекты всего за 0.82 секунды на GPU A6000. Кроме того, учитывая, что токены обогащены иерархической информацией, учитывающей трехмерность, мы дообучаем предобученную LLM на этих токенах, что позволяет многомодальному пониманию трехмерного контента. Наши эксперименты показывают, что SAR3D превосходит текущие методы генерации 3D объектов как по скорости, так и по качеству, а также позволяет LLM интерпретировать и описывать трехмерные модели комплексно.