Свежая выжимка ml и AI статей - каждый день
В последние годы развитие технологий виртуальной реальности (VR) и искусственного интеллекта (AI) открыло новые горизонты для создания автономных 3D персонажей, которые могут взаимодействовать с пользователями. Одним из самых интересных направлений является моделирование социального поведения таких персонажей, позволяющее им не только общаться с людьми, но и понимать их жесты и эмоции. В этой статье мы рассмотрим концепцию SOLAMI (Social Vision-Language-Action Modeling), которая представляет собой первую в своем роде модель для социального взаимодействия с 3D автономными персонажами.
SOLAMI основана на единой архитектуре для обработки многомодальных данных, которая включает в себя язык, визуальную информацию и действия. Эта модель позволяет 3D персонажам генерировать ответные реакции (речь и движение) на основе входных данных от пользователей. Важным элементом является использование языковых моделей (LLM), которые обрабатывают входные данные и формируют адекватные ответы.
Одной из ключевых проблем, с которой сталкивается разработка таких систем, является нехватка данных для обучения. В SOLAMI была разработана синтетическая база данных под названием SynMSI, которая автоматически генерируется на основе существующих наборов движений. Это позволяет значительно сократить затраты на сбор данных и улучшить качество взаимодействия.
SOLAMI включает в себя интерфейс VR, который позволяет пользователям взаимодействовать с 3D персонажами. Этот интерфейс обеспечивает погружающий опыт, позволяя пользователям наблюдать за реакциями персонажей в реальном времени. Взаимодействие происходит через речь и жесты, что делает его более естественным и интуитивно понятным.
Человеческие существа — социальные существа, и для создания эффективных 3D персонажей необходимо учитывать социальные аспекты взаимодействия. SOLAMI разрабатывает модели, которые могут не только понимать, но и активно участвовать в диалогах, реагируя на эмоциональные и физические сигналы пользователей.
Для создания правдоподобных 3D персонажей необходимо моделировать их поведение в различных социальных контекстах. SOLAMI использует подходы, основанные на LLM, которые позволяют персонажам адаптироваться к изменяющимся условиям общения и взаимодействия.
Одной из главных задач является интеграция различных типов данных — текстовых, аудио и визуальных. SOLAMI использует специализированные токенизаторы для преобразования речи и движений в дискретные представления, что позволяет модели лучше понимать и генерировать адекватные ответы.
Обучение SOLAMI проходит в три этапа:
Для создания SynMSI использовалась автоматизированная система, которая генерирует данные на основе существующих наборов движений и текстовых описаний. Это позволяет создать обширную базу данных для обучения модели, содержащую 6,3 тысячи элементов многократных диалогов.
Для оценки эффективности SOLAMI проводились эксперименты, сравнивающие ее с другими подходами, такими как LLM+Speech и DLP (MotionGPT). Результаты показали, что SOLAMI обеспечивает более высокое качество движения и речи с меньшей задержкой.
В рамках пользовательских исследований участники взаимодействовали с 3D персонажами, используя интерфейс VR. Оценки пользователей показали, что SOLAMI обеспечивает более естественное и удовлетворительное взаимодействие по сравнению с другими методами.
SOLAMI представляет собой значительный шаг вперед в области создания автономных 3D персонажей, способных к социальному взаимодействию. Интеграция различных модальностей, использование синтетических данных и продвинутая архитектура VLA делают эту модель уникальной и перспективной для дальнейших исследований и разработок в области AI и VR. В будущем возможно расширение функционала SOLAMI, включая поддержку многопользовательских взаимодействий и более сложные сценарии общения.