LLaMA-Mesh: Объединение Генерации 3D Моделей и Языковых Моделей
Эта работа исследует расширение возможностей крупных языковых моделей (LLMs), предварительно обученных на текстах, для генерации 3D сеток в рамках единой модели. Это предлагает ключевые преимущества: (1) использование пространственных знаний, уже заложенных в LLM, полученных из текстовых источников, таких как 3D руководства, и (2) возможность диалоговой генерации 3D и понимания сеток. Основной вызов заключается в эффективной токенизации данных 3D сеток в дискретные токены, которые LLM могут обрабатывать без проблем. Для решения этой проблемы мы представляем LLaMA-Mesh, новый подход, который представляет координаты вершин и определения граней 3D сеток в виде обычного текста, что позволяет напрямую интегрировать их с LLM без расширения словарного запаса. Мы создаем набор данных для настроенного обучения с учителем (SFT), который позволяет предварительно обученным LLM (1) генерировать 3D сетки из текстовых запросов, (2) производить смешанные текстовые и 3D сеточные выходные данные по требованию и (3) понимать и интерпретировать 3D сетки. Наша работа впервые демонстрирует, что LLM могут быть настроены для приобретения сложных пространственных знаний для генерации 3D сеток в текстовом формате, эффективно объединяя 3D и текстовые модальности. LLaMA-Mesh достигает качества генерации сеток, сравнимого с моделями, обученными с нуля, при этом сохраняя высокую производительность генерации текста.