Совместная навигация экземпляров: использование саморазговора агента для минимизации ввода пользователя

В последние годы искусственный интеллект (AI) и, в частности, модели, работающие с языком и изображениями, значительно продвинулись в области навигации и взаимодействия с пользователем. Одним из таких направлений является задача совместной навигации экземпляров (CoIN), предложенная в исследовании, которое рассматривает, как агенты могут эффективно находить целевые объекты в неизвестной среде, минимизируя при этом необходимость ввода от пользователя. Эта статья подробно рассмотрит основные концепции, методы и результаты, представленные в исследовании.

Задача навигации экземпляров (Object-Goal Navigation, ObjectNav) заключается в нахождении экземпляра определенной категории (например, "найдите картину") в трехмерной сцене. Традиционные подходы требуют от пользователей предоставления детального описания целевого объекта перед началом навигации. Однако в реальных сценариях пользователи часто не могут предоставить такую информацию. Это приводит к необходимости разработки более гибких методов, которые позволяют агентам задавать вопросы пользователю в процессе навигации.

Цели CoIN

Совместная навигация экземпляров (CoIN) позволяет агентам взаимодействовать с пользователями в процессе навигации. Основная цель CoIN заключается в том, чтобы успешно находить целевой экземпляр с минимальным вводом от пользователя. Это достигается за счет использования открытых, неформализованных взаимодействий на естественном языке, что позволяет пользователям давать лишь минимальные указания, такие как указание категории объекта.

Методология

Для решения задачи CoIN была предложена новая методология, известная как AIUTA (Agent-user Interaction with UncerTainty Awareness). AIUTA включает в себя два основных компонента: Self-Questioner и Interaction Trigger.

Self-Questioner

Self-Questioner представляет собой модуль, который использует модели языка и изображений для саморазговора. Он инициирует процесс, в котором агент задает себе вопросы о наблюдаемом объекте, чтобы получить более полное и точное описание. Этот модуль работает следующим образом:

Начальное описание: Агент запрашивает начальное описание наблюдаемого объекта у модели, работающей с изображениями (VLM).
Генерация вопросов: На основе полученного описания LLM (Large Language Model) формирует список вопросов для VLM, чтобы уточнить детали.
Оценка неопределенности: Модуль использует метод, основанный на нормализованной энтропии, для оценки неопределенности в восприятии VLM. Это позволяет фильтровать неточные или ненадежные атрибуты из описания.
Финальное описание: После фильтрации агент получает более точное и уточненное описание объекта.

Interaction Trigger

Interaction Trigger - это модуль, который определяет, когда агент должен взаимодействовать с пользователем. Он оценивает, насколько хорошо описание объекта соответствует известным фактам о целевом экземпляре. Если описание достаточно точное, агент останавливает навигацию. В противном случае агент задает пользователю уточняющий вопрос, чтобы собрать необходимую информацию.

Оценка и результаты

Для оценки эффективности CoIN была создана новая база данных, известная как CoIN-Bench. Она включает в себя как реальные, так и смоделированные взаимодействия с пользователями. Результаты показали, что AIUTA превосходит существующие методы навигации экземпляров по ряду показателей, включая скорость нахождения целевого экземпляра и количество необходимых взаимодействий с пользователем.

Эффективность AIUTA

AIUTA продемонстрировала высокую эффективность в условиях, когда агенты должны были работать с минимальными указаниями от пользователей. В ходе экспериментов было установлено, что AIUTA требует значительно меньше взаимодействий с пользователями по сравнению с традиционными методами. Это связано с тем, что агент может самостоятельно уточнять детали, что снижает нагрузку на пользователя.

Заключение

Совместная навигация экземпляров (CoIN) представляет собой значительный шаг вперед в области взаимодействия между агентами и пользователями. Использование саморазговора и оценки неопределенности позволяет агентам эффективно находить целевые объекты с минимальными вводами от пользователей. AIUTA, как предложенная методология, демонстрирует потенциал для улучшения пользовательского опыта и повышения эффективности навигации в сложных и динамичных средах.

Таким образом, CoIN и AIUTA открывают новые горизонты для будущих исследований в области взаимодействия человека и машины, создавая более гибкие и интуитивные системы навигации, которые могут адаптироваться к разнообразным условиям и требованиям пользователей.

Статья на arxiv Оригинал pdf navigation detection dialogue

Ай Дайджест