LLaMA-Mesh: Объединение Генерации 3D Моделей и Языковых Моделей

Рисунок 1. Иллюстрация нашего метода, LLaMA-MESH, который позволяет генерировать 3D модели из человеческих инструкций через диалоговый интерфейс. Пользователи предоставляют текстовые подсказки, а модель отвечает как текстом, так и 3D моделями, облегчая интерактивное создание 3D контента.

Большие языковые модели (LLM) продемонстрировали выдающиеся способности в понимании и генерации текста, достигая успеха в различных приложениях, таких как диалоговые агенты, генерация кода и рассуждения о визуальном контенте. Однако их генеративные возможности в основном ограничивались текстовым контентом, что ограничивало их применение для более широких задач. Наша работа направлена на расширение возможностей LLM в новую модальность — генерацию 3D сеток (mesh), открывая значительный потенциал для областей, таких как компьютерная графика, инженерия, робототехника и виртуальная/дополненная реальность.

Основные Проблемы и Решения

Основная сложность заключается в эффективном токенизации данных 3D сеток в дискретные токены, которые LLM могут обрабатывать. Для решения этой проблемы мы представляем LLaMA-MESH, новый подход, который представляет координаты вершин и определения граней 3D сеток в виде обычного текста, позволяя прямую интеграцию с LLM без расширения словаря.

Представление 3D Данных

Мы используем формат OBJ, широко принятый текстовый стандарт для 3D моделей, состоящий из координат вершин и определений граней. Пример OBJ файла:

v 0.123 0.234 0.345
f 1 2 3

Координаты вершин и индексы граней представлены как последовательность текста, что позволяет LLM обрабатывать их напрямую.

Квантование Вершин

Для уменьшения длины последовательности токенов и повышения эффективности обработки, мы квантуем координаты вершин в фиксированное количество бинов (64 на ось в нашем случае). Это немного снижает точность, но значительно уменьшает количество токенов, что делает обработку более доступной для LLM.

Рисунок 5. Иллюстрация нашего метода квантования вершин.

Преимущества LLaMA-MESH

Использование пространственного знания: LLM уже содержат знания о пространственных структурах из текстовых источников, таких как 3D учебники.
Интерактивная генерация и понимание 3D: Модель может генерировать и интерпретировать 3D сетки через текстовые инструкции, что открывает новые возможности для интерактивного дизайна.
Сохранение текстовых способностей: LLaMA-MESH поддерживает сильные текстовые генеративные возможности, несмотря на добавление новой модальности.

Эксперименты и Результаты

Подготовка Данных

Мы использовали набор данных Objaverse, отфильтровав модели с максимальным количеством граней 500 для поддержания управляемой вычислительной сложности. Каждый объект был преобразован в формат OBJ, и координаты вершин квантованы в 64 бинов.

Обучение

Модель была обучена на 32 графических процессорах A100 в течение 21 тысячи итераций с использованием оптимизатора AdamW и глобальным размером пакета 128. Общее время обучения составило около 3 дней.

Результаты Генерации

LLaMA-MESH демонстрирует способность генерировать высококачественные и разнообразные 3D модели, сопоставимые по качеству с моделями, обученными с нуля на 3D данных.

Рисунок 3. Галерея генераций от LLaMA-MESH.

Сравнение с Существующими Методами

LLaMA-MESH показывает качество генерации сеток, сравнимое с такими методами, как MeshXL и Unique3D, при этом сохраняя сильные текстовые способности в рамках одной модели.

| Метод | Размер модели | Часы GPU | |------------|---------------|----------| | MeshXL | 350 М | 6000 | | LLaMA-MESH | 8 Б | 2400 |

Обсуждение

Ограничения

Квантование вершин может привести к потере детализации.
Ограниченная длина контекста ограничивает сложность генерируемых структур.
Небольшое снижение языковых способностей после дообучения.

Заключение

LLaMA-MESH представляет собой значительный шаг вперед в интеграции мультимодального контента в рамках единой языковой модели. Это позволяет генерировать 3D модели напрямую из текстовых описаний, сохраняя при этом способности понимания языка.

Будущие Работы

Будущие исследования могут включать в себя более эффективные схемы кодирования для 3D данных, методы для работы с длинными контекстами, улучшение точности геометрии генерируемых моделей, а также интеграцию дополнительных модальностей, таких как текстуры и физические свойства.

Таким образом, LLaMA-MESH открывает захватывающие возможности для интерактивного дизайна, где пользователи могут общаться с моделью для создания и манипулирования 3D объектами в реальном времени.

Статья на arxiv Оригинал pdf llm tokenization mesh

Ай Дайджест