Усиление Конверсационных Агентов с помощью LLM, Насыщенных Навыками Разума

В повседневных разговорах люди естественным образом приобретают способность отвечать уместно в данной ситуации, учитывая, какой конверсационный навык наиболее подходит для ответа — процесс, который мы называем "навык разума". Для конверсационных агентов, основанных на LLM (Large Language Models), планирование соответствующих конверсационных навыков, как это делают люди, является сложной задачей из-за сложности социального диалога, особенно в интерактивных сценариях. В этой статье мы рассмотрим, как новый подход, основанный на концепции "навыка разума", может улучшить качество ответов, генерируемых LLM-агентами, и способствовать их социальному поведению.

Навык Разума: Определение и Значение

Навык разума — это способность интерпретировать текущий контекст разговора, основываясь на социальной динамике (например, демография, личность) и оптимизировать социальное взаимодействие через конверсационные навыки. Это включает в себя:

Понимание социального контекста: Учет демографических данных, личных переживаний и отношений между собеседниками.
Объяснение/обоснование: Интерпретация текущей ситуации для определения наиболее оптимизированного конверсационного навыка, который укрепит социальные связи.
Выбор конверсационного навыка: Использование широкого спектра навыков, от общего (например, эмпатия, управление личностью) до специфических задач (например, бронирование отеля, рекомендации).

Датасет MULTIFACETED SKILL-OF-MIND

Для реализации этого подхода был создан датасет MULTIFACETED SKILL-OF-MIND, содержащий около 100 тысяч диалогов, аннотированных навыками разума. Этот датасет охватывает множество интерактивных сценариев (например, долгосрочные разговоры, консультации, ориентированные на задачу диалоги) и включает в себя:

Многоходовые диалоги: Диалоги, которые могут длиться несколько ходов, отражая реальные социальные взаимодействия.
Многофасетные навыки: Диалоги аннотированы различными навыками, от эмпатии до решения задач.
Социальный контекст: Информация о социальных динамиках, таких как демографические данные, личность, правила общения.

Модель THANOS

Используя этот датасет, была разработана новая семья LLM, называемая THANOS, с размерами моделей 1B, 3B и 8B параметров. Эти модели:

Предсказывают навыки разума: Успешно демонстрируют процесс навыка разума, выбирая наиболее подходящие навыки для ответа.
Генерализируют навыки: Показывают сильную способность к обобщению навыков разума через различные домены.
Улучшают качество ответов: Значительно повышают качество ответов, генерируемых LLM-агентами, и способствуют про-социальному поведению.

Эксперименты и Результаты

Эксперименты показали, что:

THANOS эффективно предсказывает навыки разума: Модели демонстрируют значительное улучшение в предсказании навыков и генерации объяснений по сравнению с другими LLM-агентами.
THANOS обладает сильной обобщающей способностью: Модели хорошо работают вне домена обучения, показывая потенциал для применения в различных сценариях.
THANOS улучшает качество ответов: Включение навыка разума в качестве руководства для LLM-агентов значительно повышает качество их ответов, делая их более естественными и социально осведомленными.

Заключение

Введение концепции навыка разума и создание датасета MULTIFACETED SKILL-OF-MIND, а также разработка моделей THANOS, открывают новые возможности для улучшения социально осведомленных разговоров в LLM-агентах. Это не только улучшает качество взаимодействия с пользователями, но и способствует более глубокому пониманию и реализации социальных навыков в AI.

Для дальнейшего развития этой области необходимо проводить дополнительные исследования и эксперименты в различных диалоговых сценариях, а также работать над созданием агентов, полностью встроенных с навыком разума, что позволит им более естественно и эффективно взаимодействовать в социальных контекстах.