Ай Дайджест - категория social

SOLAMI: Моделирование социального взаимодействия для 3D автономных персонажей

Человеческие существа - социальные животные. Как наделить 3D автономных персонажей подобным социальным интеллектом, способным воспринимать, понимать и взаимодействовать с людьми, остается открытой, но фундаментальной задачей. В этой статье мы представляем SOLAMI, первую модельную структуру от начала до конца для социального видения-языка-действия (VLA) для погружающего взаимодействия с 3D автономными персонажами. В частности, SOLAMI строит 3D автономных персонажей с трех аспектов: (1) Архитектура социального VLA: Мы предлагаем единый социальный VLA фреймворк для генерации мультимодальных ответов (речь и движение) на основе мультимодального ввода пользователя для управления персонажем в социальном взаимодействии. (2) Интерактивные мультимодальные данные: Мы представляем SynMSI, синтетический мультимодальный набор данных социальных взаимодействий, сгенерированный автоматическим конвейером, использующим только существующие наборы данных движения для решения проблемы нехватки данных. (3) Погружающий VR интерфейс: Мы разрабатываем VR интерфейс, который позволяет пользователям погружающе взаимодействовать с этими персонажами, управляемыми различными архитектурами. Обширные количественные эксперименты и исследования пользователей показывают, что наша структура приводит к более точным и естественным реакциям персонажей (как в речи, так и в движении), которые соответствуют ожиданиям пользователей с более низкой задержкой.

2024-12-03social autonomous interaction

Усиление Конверсационных Агентов с помощью LLM, Насыщенных Навыками Разума

Для усиления социальных связей с собеседниками люди естественным образом приобретают способность адекватно реагировать в заданной ситуации, учитывая, какой навык общения наиболее подходит для ответа — процесс, который мы называем "навык ума". Для агентов беседы, основанных на больших языковых моделях (LLM), планирование подходящих навыков общения, как это делают люди, представляет собой сложную задачу из-за сложности социального диалога, особенно в интерактивных сценариях. Чтобы решить эту проблему, мы предлагаем набор данных бесед с аннотациями навыков ума, названный "Многоаспектный навык ума", который включает в себя многоходовые и многоаспектные навыки общения в различных интерактивных сценариях (например, долгосрочные, консультационные, ориентированные на задачу), основанные на разнообразных социальных контекстах (например, демография, персона, правила поведения). Этот набор данных содержит примерно 100 тысяч бесед. Используя этот набор данных, мы представляем новую семью LLM с интегрированными навыками ума, названную "Танос", с размерами модели в 1 миллиард, 3 миллиарда и 8 миллиардов параметров. Эти модели в ходе обширных экспериментов успешно демонстрируют процесс навыка ума и показывают высокую обобщаемость при выводе многоаспектных навыков в различных областях. Более того, мы показали, что Танос значительно улучшает качество ответов, генерируемых агентами бесед на основе LLM, и способствует про-социальному поведению в оценках человеком.

2024-11-08conversational model social