Свежая выжимка ml и AI статей - каждый день
В последние годы исследования в области взаимодействия человека и робота (HRI) сосредоточились на разработке систем, способных понимать сложные инструкции на естественном языке и выполнять задачи в динамических и разнообразных средах. Эти системы находят применение в самых разных областях, от личной помощи до промышленной робототехники, подчеркивая важность гибкого, естественного и безопасного взаимодействия роботов с людьми. В данной статье представлена передовая архитектура для планирования действий робота, которая интегрирует коммуникацию, восприятие и планирование с использованием больших языковых моделей (LLM).
Модуль восприятия отвечает за сбор и интерпретацию информации об окружающей среде. Он строит и поддерживает семантическую карту в виде направленного графа, который объединяет геометрическую и семантическую информацию. Эта карта используется планировщиком для формулирования планов и действий, позволяющих роботу выполнять конкретные задачи.
Планировщик переводит запросы пользователя, выраженные на естественном языке, в конкретные действия, которые робот может выполнить. Он состоит из нескольких подмодулей:
Для интерпретации и выполнения команд пользователя, таких как "Иди на кухню и возьми синюю бутылку на столе", используется модифицированный ReAct фреймворк. Он позволяет LLM эффективно обрабатывать запросы пользователей, используя их обширные предварительно обученные знания, без необходимости вводить новые знания о меняющейся среде. Этот фреймворк также улучшает пространство выполнения, предоставляя восприятие окружающей среды в реальном времени и результаты физических действий.
Система использует семантические карты и графы сцены для представления окружающей среды, что позволяет роботу адаптироваться к динамическим изменениям. Контроллер и объяснитель обеспечивают обратную связь, которая позволяет динамически корректировать планы для оптимизации выполнения задач.
Рассмотрим сценарий, в котором роботу поручено взять бутылку с кухонного стола и поставить её на стол в спальне. Система должна реагировать на неожиданные изменения, такие как перемещение бутылки посторонним агентом.
Предложенная система демонстрирует значительные преимущества в планировании задач благодаря своей адаптивности и интеграции с разнообразными навыками робота для выполнения сложных задач. Использование LLM для обработки естественного языка, восприятия окружающей среды и гибкого планирования делает систему универсальной для динамических сред. Реализация на роботе RoBee от Oversonic Robotics подтвердила её практическую ценность для приложений, требующих продвинутого взаимодействия человека и робота.
В будущем планируется расширение набора низкоуровневых навыков, автоматическое пополнение базы данных объяснителя, а также исследование возможностей системы по активному сбору информации об окружающей среде и человеческих партнёрах.