Ай Дайджест - категория planning

E,M,M,A,-,X: Модель многомодального действия с основанной цепочкой размышлений и пространственным прогнозированием

Традиционные методы управления роботами на основе обучения с подкреплением часто являются специфическими для задачи и не могут обобщаться на разнообразные среды или невидимые объекты и инструкции. Визуальные языковые модели (VLM) демонстрируют сильные способности к пониманию сцен и планированию, но им не хватает способности генерировать осуществимые политики, адаптированные для конкретных роботизированных тел. Чтобы решить эту проблему, появились модели визуально-языкового-действия (VLA), однако они сталкиваются с трудностями в пространственном рассуждении на дальних горизонтах и основанном на задачах планировании. В данной работе мы предлагаем Модель Эмбедированного Мультимодального Действия с Основанной Цепочкой Мыслей и Предварительным Пространственным Рассуждением, Emma-X. Emma-X использует наш конструктивный иерархический набор данных об эмбедировании на основе BridgeV2, содержащий 60,000 траекторий манипуляции роботов, автоаннотированных с обоснованным рассуждением по задачам и пространственным руководством. Кроме того, мы вводим стратегию сегментации траекторий на основе состояния захвата и траекторий движения, что может помочь смягчить галлюцинацию при генерации обоснованного рассуждения по подзадачам. Экспериментальные результаты демонстрируют, что Emma-X достигает превосходных результатов по сравнению с конкурентоспособными базовыми значениями, особенно в реальных роботизированных задачах, требующих пространственного рассуждения.

2024-12-17robotics reinforcement reasoning

Обучение больших языковых моделей для рассуждений в непрерывном латентном пространстве

Большие языковые модели (LLM) ограничены в рассуждениях в "языковом пространстве", где они обычно выражают процесс рассуждения с помощью цепочки мыслей (CoT) для решения сложной задачи рассуждения. Однако мы утверждаем, что языковое пространство может не всегда быть оптимальным для рассуждений. Например, большинство словесных токенов в первую очередь предназначены для текстовой логики и не являются необходимыми для рассуждения, в то время как некоторые критически важные токены требуют сложного планирования и представляют собой огромные проблемы для LLM. Чтобы исследовать потенциал рассуждений LLM в неограниченном скрытом пространстве вместо использования естественного языка, мы представляем новую парадигму Кокос (Цепочка Непрерывной Мысли). Мы используем последнее скрытое состояние LLM в качестве представления состояния рассуждения (называемого "непрерывной мыслью"). Вместо того чтобы декодировать это в словесный токен, мы возвращаем его обратно в LLM в качестве последующего вложения ввода непосредственно в непрерывном пространстве. Эксперименты показывают, что Кокос может эффективно дополнять LLM в нескольких задачах рассуждения. Эта новая парадигма скрытого рассуждения приводит к возникновению продвинутых паттернов рассуждения: непрерывная мысль может кодировать несколько альтернативных следующих шагов рассуждения, позволяя модели выполнять поиск в ширину (BFS) для решения проблемы, вместо того чтобы преждевременно фиксироваться на одном детерминированном пути, как это делается в CoT. Кокос превосходит CoT в определенных задачах логического рассуждения, которые требуют значительного возврата во время планирования, с меньшим количеством токенов мыслей во время вывода. Эти результаты демонстрируют перспективность скрытого рассуждения и предлагают ценные идеи для будущих исследований.

2024-12-10embedding planning tokens

A GUVIS: Объединённые агенты с чистым зрением для автономного взаимодействия с графическими интерфейсами

Графические пользовательские интерфейсы (GUI) критически важны для взаимодействия человека с компьютером, однако автоматизация задач GUI остается сложной из-за сложности и изменчивости визуальных сред. Существующие подходы часто полагаются на текстовые представления GUI, что вводит ограничения в обобщении, эффективности и масштабируемости. В данной статье мы представляем Aguvis, унифицированную чисто визуальную платформу для автономных агентов GUI, которая работает на различных платформах. Наш подход использует наблюдения на основе изображений и связывает инструкции на естественном языке с визуальными элементами, а также применяет согласованное пространство действий для обеспечения обобщения между платформами. Чтобы преодолеть ограничения предыдущих работ, мы интегрируем явное планирование и рассуждения в модель, что увеличивает ее способность автономно ориентироваться и взаимодействовать со сложными цифровыми средами. Мы создаем масштабный набор данных о траекториях агентов GUI, включая многомодальное рассуждение и связывание, и применяем двухэтапный тренировочный конвейер, который сначала фокусируется на общем связывании GUI, а затем на планировании и рассуждении. Через всесторонние эксперименты мы демонстрируем, что Aguvis превосходит предыдущие передовые методы как в оффлайновых, так и в реальных онлайн-сценариях, включая, насколько нам известно, первого полностью автономного чисто визуального агента GUI, способного выполнять задачи независимо без сотрудничества с внешними закрытыми моделями. Мы открыли исходные коды всех наборов данных, моделей и рецептов обучения, чтобы содействовать будущим исследованиям по адресу https://aguvis-project.github.io/.

2024-12-06reasoning gui scalability

WildLMa: Долгосрочное локоманипуляционное обучение в реальных условиях

"Манипуляции мобильными роботами 'в дикой природе' стремятся развертывать роботов в разнообразных реальных условиях, что требует от робота: (1) обладать навыками, которые могут обобщаться на различные конфигурации объектов; (2) быть способным к выполнению задач с длительным горизонтом в различных средах; и (3) выполнять сложные манипуляции, выходящие за рамки простого захвата и перемещения. Четвероногие роботы с манипуляторами обещают расширить рабочее пространство и обеспечить надежную локомоцию, но существующие результаты не исследуют такие возможности. В данной статье предлагается WildLMa с тремя компонентами для решения этих проблем: (1) адаптация обученного низкоуровневого контроллера для телеоперации всего тела с использованием VR и проходимости; (2) WildLMa-Skill — библиотека обобщаемых визуомоторных навыков, полученных с помощью обучения по подражанию или эвристик; и (3) WildLMa-Planner — интерфейс для обученных навыков, позволяющий планировщикам на основе LLM координировать навыки для задач с длительным горизонтом. Мы демонстрируем важность высококачественных тренировочных данных, достигая более высокого уровня успеха в захвате объектов по сравнению с существующими базовыми методами RL, используя всего несколько десятков демонстраций. WildLMa использует CLIP для обучения по подражанию с условием языка, что эмпирически обобщается на объекты, не виденные в процессе обучения. Помимо обширной количественной оценки, мы качественно демонстрируем практические приложения роботов, такие как уборка мусора в университетских коридорах или на открытой местности, работа с подвижными объектами и перестановка предметов на книжной полке."

2024-11-25generalization teleoperation vision

One to Rule Them All: Natural Language to Bind, Communication, Perception, and Action

В последние годы исследования в области взаимодействия человека и робота сосредоточены на разработке роботов, способных понимать сложные инструкции человека и выполнять задачи в динамичных и разнообразных условиях. Эти системы имеют широкий спектр применений, от личной помощи до промышленной робототехники, подчеркивая важность гибкого, естественного и безопасного взаимодействия роботов с людьми. В данной статье представлена усовершенствованная архитектура для планирования действий робота, которая интегрирует коммуникацию, восприятие и планирование с использованием крупных языковых моделей (LLM). Наша система разработана для перевода команд, выраженных на естественном языке, в исполняемые действия робота, учитывая информацию об окружающей среде и динамически обновляя планы на основе реального времени обратной связи. Модуль планировщика является ядром системы, где встроенные в модифицированную структуру ReAct LLM используются для интерпретации и выполнения команд пользователя. Используя их обширные предварительно обученные знания, LLM могут эффективно обрабатывать запросы пользователей без необходимости введения новых знаний о меняющейся среде. Модифицированная структура ReAct дополнительно расширяет пространство исполнения, предоставляя восприятие окружающей среды в реальном времени и результаты физических действий. Сочетая прочные и динамичные семантические карты в виде графов с элементами управления и объяснениями сбоев, эта архитектура повышает адаптивность робота, выполнение задач и бесшовное сотрудничество с человеческими пользователями в общих и динамичных средах. Благодаря интеграции непрерывных обратных связей с окружающей средой система может динамически адаптировать план, чтобы учесть неожиданные изменения, оптимизируя способность робота выполнять задачи. Используя набор данных предыдущего опыта, можно предоставить подробную обратную связь о неудачах. Обновление контекста LLM на следующей итерации с предложениями о том, как преодолеть проблему, также возможно.

2024-11-25adaptability perception robotics

Модельные агенты для навигации по веб-сайтам: Использование LLM в качестве моделей мира

Агенты языка продемонстрировали перспективные возможности в автоматизации веб-задач, хотя их текущие реактивные подходы все еще значительно уступают человеческим способностям. Включение в процесс продвинутых алгоритмов планирования, особенно методов поиска по дереву, может улучшить работу этих агентов, однако непосредственное применение поиска по дереву на живых веб-сайтах представляет значительные риски безопасности и практические ограничения из-за необратимых действий, таких как подтверждение покупки. В этой статье мы представляем новый парадигм, который дополняет языковых агентов планированием на основе модели, пионерски используя большие языковые модели (LLMs) в качестве моделей мира в сложных веб-окружениях. Наш метод, WebDreamer, опирается на ключевое понимание того, что LLM по своей природе кодируют всесторонние знания о структурах и функциях веб-сайтов. В частности, WebDreamer использует LLM для моделирования результатов для каждого возможного действия (например, "что произойдет, если я нажму эту кнопку?") с использованием описаний на естественном языке, и затем оценивает эти воображаемые результаты для определения оптимального действия на каждом шаге. Эмпирические результаты на двух репрезентативных бенчмарках для веб-агентов с онлайн-взаимодействием — VisualWebArena и Mind2Web-live — демонстрируют, что WebDreamer достигает значительных улучшений по сравнению с реактивными базовыми линиями. Устанавливая жизнеспособность LLM как моделей мира в веб-окружениях, эта работа закладывает основу для сдвига парадигмы в автоматизированном веб-взаимодействии. Более широко, наши результаты открывают захватывающие новые направления для будущих исследований в области 1) оптимизации LLM специально для моделирования мира в сложных, динамических средах и 2) планирования на основе модели для языковых агентов.

2024-11-21optimization agent model