SOLAMI: Моделирование социального взаимодействия для 3D автономных персонажей

В последние годы развитие технологий виртуальной реальности (VR) и искусственного интеллекта (AI) открыло новые горизонты для создания автономных 3D персонажей, которые могут взаимодействовать с пользователями. Одним из самых интересных направлений является моделирование социального поведения таких персонажей, позволяющее им не только общаться с людьми, но и понимать их жесты и эмоции. В этой статье мы рассмотрим концепцию SOLAMI (Social Vision-Language-Action Modeling), которая представляет собой первую в своем роде модель для социального взаимодействия с 3D автономными персонажами.

Основные концепции SOLAMI

1. Архитектура VLA

SOLAMI основана на единой архитектуре для обработки многомодальных данных, которая включает в себя язык, визуальную информацию и действия. Эта модель позволяет 3D персонажам генерировать ответные реакции (речь и движение) на основе входных данных от пользователей. Важным элементом является использование языковых моделей (LLM), которые обрабатывают входные данные и формируют адекватные ответы.

2. Синтетические многомодальные данные: SynMSI

Одной из ключевых проблем, с которой сталкивается разработка таких систем, является нехватка данных для обучения. В SOLAMI была разработана синтетическая база данных под названием SynMSI, которая автоматически генерируется на основе существующих наборов движений. Это позволяет значительно сократить затраты на сбор данных и улучшить качество взаимодействия.

3. Интерактивный интерфейс VR

SOLAMI включает в себя интерфейс VR, который позволяет пользователям взаимодействовать с 3D персонажами. Этот интерфейс обеспечивает погружающий опыт, позволяя пользователям наблюдать за реакциями персонажей в реальном времени. Взаимодействие происходит через речь и жесты, что делает его более естественным и интуитивно понятным.

Подходы к моделированию социального взаимодействия

1. Социальное взаимодействие

Человеческие существа — социальные существа, и для создания эффективных 3D персонажей необходимо учитывать социальные аспекты взаимодействия. SOLAMI разрабатывает модели, которые могут не только понимать, но и активно участвовать в диалогах, реагируя на эмоциональные и физические сигналы пользователей.

2. Моделирование поведения

Для создания правдоподобных 3D персонажей необходимо моделировать их поведение в различных социальных контекстах. SOLAMI использует подходы, основанные на LLM, которые позволяют персонажам адаптироваться к изменяющимся условиям общения и взаимодействия.

3. Мультимодальные данные

Одной из главных задач является интеграция различных типов данных — текстовых, аудио и визуальных. SOLAMI использует специализированные токенизаторы для преобразования речи и движений в дискретные представления, что позволяет модели лучше понимать и генерировать адекватные ответы.

Процесс обучения SOLAMI

1. Этапы обучения

Обучение SOLAMI проходит в три этапа:

Обучение токенизаторов: На этом этапе происходит настройка токенизаторов для речи и движений, чтобы они могли эффективно преобразовывать входные данные в дискретные токены.
Мультизадачное предварительное обучение: На втором этапе модель обучается на парах текстов и движений, что позволяет улучшить согласование между различными модальностями.
Настройка на инструкции: На последнем этапе модель дообучается на данных многомодального взаимодействия, что позволяет ей лучше реагировать на команды пользователей и поддерживать более сложные диалоги.

2. Генерация синтетических данных

Для создания SynMSI использовалась автоматизированная система, которая генерирует данные на основе существующих наборов движений и текстовых описаний. Это позволяет создать обширную базу данных для обучения модели, содержащую 6,3 тысячи элементов многократных диалогов.

Оценка эффективности SOLAMI

1. Количественная оценка

Для оценки эффективности SOLAMI проводились эксперименты, сравнивающие ее с другими подходами, такими как LLM+Speech и DLP (MotionGPT). Результаты показали, что SOLAMI обеспечивает более высокое качество движения и речи с меньшей задержкой.

2. Пользовательские исследования

В рамках пользовательских исследований участники взаимодействовали с 3D персонажами, используя интерфейс VR. Оценки пользователей показали, что SOLAMI обеспечивает более естественное и удовлетворительное взаимодействие по сравнению с другими методами.

Заключение

SOLAMI представляет собой значительный шаг вперед в области создания автономных 3D персонажей, способных к социальному взаимодействию. Интеграция различных модальностей, использование синтетических данных и продвинутая архитектура VLA делают эту модель уникальной и перспективной для дальнейших исследований и разработок в области AI и VR. В будущем возможно расширение функционала SOLAMI, включая поддержку многопользовательских взаимодействий и более сложные сценарии общения.

Статья на arxiv Оригинал pdf dataset social intelligence

Ай Дайджест