Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

One to Rule Them All: Natural Language to Bind, Communication, Perception, and Action

В последние годы исследования в области взаимодействия человека и робота (HRI) сосредоточились на разработке систем, способных понимать сложные инструкции на естественном языке и выполнять задачи в динамических и разнообразных средах. Эти системы находят применение в самых разных областях, от личной помощи до промышленной робототехники, подчеркивая важность гибкого, естественного и безопасного взаимодействия роботов с людьми. В данной статье представлена передовая архитектура для планирования действий робота, которая интегрирует коммуникацию, восприятие и планирование с использованием больших языковых моделей (LLM).

Архитектура Системы

Модуль Восприятия

Модуль восприятия отвечает за сбор и интерпретацию информации об окружающей среде. Он строит и поддерживает семантическую карту в виде направленного графа, который объединяет геометрическую и семантическую информацию. Эта карта используется планировщиком для формулирования планов и действий, позволяющих роботу выполнять конкретные задачи.

Планировщик

Планировщик переводит запросы пользователя, выраженные на естественном языке, в конкретные действия, которые робот может выполнить. Он состоит из нескольких подмодулей:

  • Планировщик Задач: Переводит запросы пользователя в последовательность высокоуровневых навыков.
  • Планировщик Навыков: Преобразует высокоуровневые навыки в специфические, исполняемые команды.
  • Исполнитель: Выполняет низкоуровневые действия, сгенерированные планировщиком навыков.
  • Контроллер: Мониторит выполнение действий и управляет ошибками или неожиданными событиями во время процесса.
  • Объяснитель: Интерпретирует причины сбоев в выполнении и предлагает корректировки плана на основе прошлых опытов.

Расширенная Версия ReAct Фреймворка

Для интерпретации и выполнения команд пользователя, таких как "Иди на кухню и возьми синюю бутылку на столе", используется модифицированный ReAct фреймворк. Он позволяет LLM эффективно обрабатывать запросы пользователей, используя их обширные предварительно обученные знания, без необходимости вводить новые знания о меняющейся среде. Этот фреймворк также улучшает пространство выполнения, предоставляя восприятие окружающей среды в реальном времени и результаты физических действий.

Интеграция Семантических Карт и Контроля

Система использует семантические карты и графы сцены для представления окружающей среды, что позволяет роботу адаптироваться к динамическим изменениям. Контроллер и объяснитель обеспечивают обратную связь, которая позволяет динамически корректировать планы для оптимизации выполнения задач.

Пример Поведения Системы

Рассмотрим сценарий, в котором роботу поручено взять бутылку с кухонного стола и поставить её на стол в спальне. Система должна реагировать на неожиданные изменения, такие как перемещение бутылки посторонним агентом.

  • Запрос Пользователя: "Иди на кухню, возьми бутылку и поставь её на стол в спальне."
  • Модуль Восприятия: Создает семантическую карту, включающую положение и типы объектов.
  • Планировщик Задач: Интерпретирует запрос и начинает планирование, используя восприятие для сбора информации и навыки для выполнения действий.
  • Планировщик Навыков: Переводит высокоуровневые навыки в последовательность низкоуровневых команд, таких как движение к объекту, захват и перемещение.
  • Исполнитель: Выполняет команды, взаимодействуя с аппаратным обеспечением робота.
  • Контроллер и Объяснитель: В случае неудачи, контроллер обнаруживает проблему и передает информацию объяснителю, который предлагает корректировки плана.

Заключение

Предложенная система демонстрирует значительные преимущества в планировании задач благодаря своей адаптивности и интеграции с разнообразными навыками робота для выполнения сложных задач. Использование LLM для обработки естественного языка, восприятия окружающей среды и гибкого планирования делает систему универсальной для динамических сред. Реализация на роботе RoBee от Oversonic Robotics подтвердила её практическую ценность для приложений, требующих продвинутого взаимодействия человека и робота.

В будущем планируется расширение набора низкоуровневых навыков, автоматическое пополнение базы данных объяснителя, а также исследование возможностей системы по активному сбору информации об окружающей среде и человеческих партнёрах.