S,A,M,E: Обучение универсальной визуальной навигации с языковым управлением с помощью адаптивной смеси экспертов

В последние годы область обучения языковым командам для визуальной навигации привлекла значительное внимание исследователей. Задачи в этой области можно условно разделить на две категории: высокоуровневый поиск по категориям и низкоуровневую навигацию, основанную на языковых командах. Первая категория акцентирует внимание на процессе исследования, тогда как вторая сосредоточена на выполнении детализированных текстовых указаний. Несмотря на различия в фокусах этих задач, общие требования, такие как интерпретация команд, понимание окружающей среды и принятие решений о действиях, остаются постоянными.

В данной статье мы обсуждаем новую модель, названную State-Adaptive Mixture of Experts (SAME), которая позволяет агенту делать выводы на основе языковых команд различной гранулярности и динамических наблюдений. Модель SAME предоставляет универсального агента, способного решать семь задач навигации одновременно, демонстрируя при этом производительность, сопоставимую с производительностью специализированных агентов.

Область визуальной навигации, основанной на языковых командах, представляет собой ключевую задачу для воплощенного интеллекта. Способность понимать команды на естественном языке и осуществлять навигацию в незнакомых условиях является основополагающей. Разнообразие навигационных задач, каждая из которых определяется своими целями, от широких высокоуровневых до детализированных низкоуровневых указаний, подчеркивает важность как исследования, так и выполнения указаний.

Тем не менее, большинство этих задач рассматриваются как изолированные исследовательские проблемы, а методы, разработанные для каждой из них, часто не поддаются обобщению для других задач. Например, структурированная память, адаптированная для эффективного исследования целевых объектов, контекстное руководство для расплывчатых указаний и эпизодическое выравнивание зрительных и языковых данных для выполнения указаний — все это примеры специализированных подходов.

Мы утверждаем, что основное различие между этими задачами заключается в гранулярности указаний, и что их следует объединить под более широкой концепцией языково-ориентированной визуальной навигации (VLN). Цель состоит в создании универсальной системы, способной интерпретировать и выполнять произвольные языковые команды.

Обзор задач навигации

Формулировка задач навигации

Агент, получающий команду, представленную последовательностью L векторных представлений слов, W = {wi}, i=1,…,L, должен навигировать по заранее определенному неориентированному графу G = ⟨V, E⟩, где V представляет собой узлы, доступные для навигации, а E — связи между ними. Агент должен выполнить последовательность действий для достижения целевой позиции vT, указанной в команде W.

Языковые инструкции W можно классифицировать на три уровня гранулярности:

Тонкая гранулярность (Fine-grained VLN): W описывает последовательность действий шаг за шагом.
Грубая гранулярность (Coarse-grained VLN): W ссылается на целевой объект, находящийся вне поля зрения.
Нулевая гранулярность (Zero-grained VLN): W указывает лишь на категорию объекта.

Политика многомодальной навигации

На каждом шаге агент получает локальное визуальное наблюдение Ot = {oi}, i=0,…,36, состоящее из 36 изображений, и языковую инструкцию W. Эти данные отдельно кодируются с помощью визуального и языкового кодировщиков в визуальные и языковые признаки, соответственно. Модель DUET, использующая эти признаки, обеспечивает возможность кросс-модального кодирования и предсказания действий на основе текущих наблюдений и инструкций.

Конфликты в многозадачном обучении навигации

Для успешного обучения универсального навигационного агента необходимо понять основные противоречия, препятствующие объединенному обучению моделей. В результате анализа мы пришли к выводу, что простое смешивание данных приводит к непостоянной производительности из-за конфликтующих обучающих целей.

Преимущества тонкого понимания языка

Обучение на тонко аннотированных инструкциях и траекториях оказывается полезным для задач с нулевой гранулярностью, обеспечивая улучшение успеха на 2-4%. Модели, обученные исключительно на данных VLN, демонстрируют сильные результаты в нулевом режиме на задачах OBJECT_NAV, в то время как модели, обученные только на данных OBJECT_NAV, показывают слабую производительность на задачах, требующих сложного понимания языка.

Mixture of Experts (MoE) для универсальной языковой навигации

Исходя из полученных выводов, мы предлагаем новый подход — State-Adaptive Mixture of Experts (SAME). Эта модель использует несколько специализированных экспертных сетей, которые могут переключаться во время каждого шага навигации в зависимости от состояния агента.

Формулировка MoE

В каждом проходе активация подмножества экспертов происходит в слое MoE с разреженной активацией. Роутер предсказывает вероятность назначения каждого эксперта, а затем вычисляет взвешенную сумму выходов от активированных экспертов.

Адаптивный выбор экспертов

Мы вводим механизм выбора экспертов, основанный на состоянии агента, который позволяет динамически адаптироваться к визуальным изменениям в окружающей среде. Это позволяет агенту эффективно управлять различными навигационными задачами, такими как исследование и следование инструкциям.

Эксперименты

Мы проводим многозадачное обучение на семи основных задачах навигации и проводим ряд абляционных исследований, чтобы установить лучшие практики для эффективного многозадачного обучения.

Сравнение с современными методами

В ходе экспериментов мы сравниваем производительность модели SAME с существующими методами, как в дискретной, так и в непрерывной средах. Результаты показывают, что SAME достигает состояния искусства в производительности на нескольких бенчмарках, продемонстрировав улучшение в среднем на 3% по всем задачам по сравнению с базовыми моделями.

Заключение

Модель SAME объединяет разнообразные задачи навигации в единую рамку, обеспечивая возможность совместного обучения и обмена знаниями между различными задачами. Мы полагаем, что SAME может стать основой для создания универсальных агентов, способных успешно выполнять сложные задачи визуальной навигации на основе языковых команд.

Таким образом, результаты, полученные в данном исследовании, подтверждают эффективность предлагаемого подхода и открывают новые горизонты для дальнейших исследований в области языково-ориентированной визуальной навигации.

Статья на arxiv Оригинал pdf exploration framework instruction

Ай Дайджест