Свежая выжимка ml и AI статей - каждый день
Большие языковые модели (LLM) продемонстрировали выдающиеся способности в понимании и генерации текста, достигая успеха в различных приложениях, таких как диалоговые агенты, генерация кода и рассуждения о визуальном контенте. Однако их генеративные возможности в основном ограничивались текстовым контентом, что ограничивало их применение для более широких задач. Наша работа направлена на расширение возможностей LLM в новую модальность — генерацию 3D сеток (mesh), открывая значительный потенциал для областей, таких как компьютерная графика, инженерия, робототехника и виртуальная/дополненная реальность.
Основная сложность заключается в эффективном токенизации данных 3D сеток в дискретные токены, которые LLM могут обрабатывать. Для решения этой проблемы мы представляем LLaMA-MESH, новый подход, который представляет координаты вершин и определения граней 3D сеток в виде обычного текста, позволяя прямую интеграцию с LLM без расширения словаря.
Мы используем формат OBJ, широко принятый текстовый стандарт для 3D моделей, состоящий из координат вершин и определений граней. Пример OBJ файла:
v 0.123 0.234 0.345
f 1 2 3
Координаты вершин и индексы граней представлены как последовательность текста, что позволяет LLM обрабатывать их напрямую.
Для уменьшения длины последовательности токенов и повышения эффективности обработки, мы квантуем координаты вершин в фиксированное количество бинов (64 на ось в нашем случае). Это немного снижает точность, но значительно уменьшает количество токенов, что делает обработку более доступной для LLM.
Использование пространственного знания: LLM уже содержат знания о пространственных структурах из текстовых источников, таких как 3D учебники.
Интерактивная генерация и понимание 3D: Модель может генерировать и интерпретировать 3D сетки через текстовые инструкции, что открывает новые возможности для интерактивного дизайна.
Сохранение текстовых способностей: LLaMA-MESH поддерживает сильные текстовые генеративные возможности, несмотря на добавление новой модальности.
Мы использовали набор данных Objaverse, отфильтровав модели с максимальным количеством граней 500 для поддержания управляемой вычислительной сложности. Каждый объект был преобразован в формат OBJ, и координаты вершин квантованы в 64 бинов.
Модель была обучена на 32 графических процессорах A100 в течение 21 тысячи итераций с использованием оптимизатора AdamW и глобальным размером пакета 128. Общее время обучения составило около 3 дней.
LLaMA-MESH демонстрирует способность генерировать высококачественные и разнообразные 3D модели, сопоставимые по качеству с моделями, обученными с нуля на 3D данных.
LLaMA-MESH показывает качество генерации сеток, сравнимое с такими методами, как MeshXL и Unique3D, при этом сохраняя сильные текстовые способности в рамках одной модели.
| Метод | Размер модели | Часы GPU | |------------|---------------|----------| | MeshXL | 350 М | 6000 | | LLaMA-MESH | 8 Б | 2400 |
LLaMA-MESH представляет собой значительный шаг вперед в интеграции мультимодального контента в рамках единой языковой модели. Это позволяет генерировать 3D модели напрямую из текстовых описаний, сохраняя при этом способности понимания языка.
Будущие исследования могут включать в себя более эффективные схемы кодирования для 3D данных, методы для работы с длинными контекстами, улучшение точности геометрии генерируемых моделей, а также интеграцию дополнительных модальностей, таких как текстуры и физические свойства.
Таким образом, LLaMA-MESH открывает захватывающие возможности для интерактивного дизайна, где пользователи могут общаться с моделью для создания и манипулирования 3D объектами в реальном времени.