Ай Дайджест - категория imitation

Эффективные политики диффузии с помощью смеси экспертов для многозадачного обучения

Политики диффузии стали широко использоваться в обучении подражанию, предлагая несколько привлекательных свойств, таких как генерация многомодального и разрывного поведения. Поскольку модели становятся больше, чтобы захватить более сложные возможности, их вычислительные требования увеличиваются, как показано недавними законами масштабирования. Поэтому продолжение работы с текущими архитектурами будет представлять собой вычислительное ограничение. Для решения этой проблемы мы предлагаем смесь экспертов по денойзингу (MoDE) в качестве новой политики для обучения подражанию. MoDE превосходит современные высококлассные политики диффузии на основе трансформеров, обеспечивая при этом эффективное масштабирование параметров за счет разреженных экспертов и маршрутизации, условной от шума, снижая как активные параметры на 40%, так и затраты на вывод на 90% за счет кэширования экспертов. Наша архитектура сочетает это эффективное масштабирование с механизмом самовнимания, условным от шума, что позволяет более эффективно проводить денойзинг на разных уровнях шума. MoDE достигает выдающейся производительности по 134 задачам в четырех известных бенчмарках по обучению подражанию (CALVIN и LIBERO). Примечательно, что, предварительно обучив MoDE на разнообразных данных о робототехнике, мы достигаем 4.01 на CALVIN ABC и 0.95 на LIBERO-90. Он превосходит как политики диффузии на основе CNN, так и трансформеров в среднем на 57% по 4 бенчмаркам, используя при этом на 90% меньше FLOPs и меньше активных параметров по сравнению с архитектурами диффузионных трансформеров по умолчанию. Кроме того, мы проводим комплексные анализы компонентов MoDE, предоставляя полезные сведения для проектирования эффективных и масштабируемых архитектур трансформеров для политик диффузии. Код и демонстрации доступны по адресу https://mbreuss.github.io/MoDE_Diffusion_Policy/.

2024-12-19performance experts scaling

TidyBot++: Открытый мобильный манипулятор для обучения роботов

Использование обещаний недавних достижений в области имитационного обучения для мобильной манипуляции потребует сбора большого количества демонстраций, проведенных людьми. В данной статье предлагается открытый дизайн недорогого, надежного и гибкого мобильного манипулятора, который может поддерживать произвольные руки, что позволяет выполнять широкий спектр задач мобильной манипуляции в реальных условиях дома. Ключевым моментом нашего дизайна является использование электродвигателей на колесах, которые позволяют мобильной базе быть полностью гономной, управляя всеми плоскими степенями свободы независимо и одновременно. Эта функция делает базу более маневренной и упрощает многие задачи мобильной манипуляции, устраняя кинематические ограничения, которые создают сложные и трудоемкие движения в негонимических базах. Мы оснастили нашего робота интуитивно понятным интерфейсом телеприсутствия с помощью мобильного телефона, чтобы упростить сбор данных для имитационного обучения. В наших экспериментах мы используем этот интерфейс для сбора данных и показываем, что полученные обученные политики могут успешно выполнять различные распространенные задачи мобильной манипуляции в домах.

2024-12-17mobile manipulation demonstrations

RLZero: Нулевая генерация поведения из языка без обучения

Награды остаются неприемлемым способом определения задач для обучения с подкреплением, так как люди часто не могут предсказать оптимальное поведение для любой данной функции награды, что приводит к плохому дизайну наград и взлому наград. Язык представляет собой привлекательный способ передачи намерений агентам и обхода дизайна наград, но предыдущие попытки сделать это были ограничены дорогостоящими и не масштабируемыми усилиями по маркировке. В этой работе мы предлагаем метод полностью неконтролируемой альтернативы grounding языковых инструкций нулевым образом для получения политик. Мы представляем решение, которое принимает форму воображения, проекции и имитации: агент воображает последовательность наблюдений, соответствующую языковому описанию задачи, проецирует воображаемую последовательность в нашу целевую область и закрепляет ее за политикой. Модели видео-языка позволяют нам представлять описания задач, которые используют знания о задачах, полученные из видео-текстовых сопоставлений на интернет-уровне. Проблема остается в том, чтобы закрепить эти генерации за политикой. В этой работе мы показываем, что можем достичь политики «язык-в-поведение» нулевым образом, сначала закрепив воображаемые последовательности в реальных наблюдениях неконтролируемого агента RL и используя замкнутое решение для обучения имитации, которое позволяет агенту RL подражать закрепленным наблюдениям. Наш метод, RLZero, является первым, насколько нам известно, кто показывает способности генерации «языка в поведение» нулевым образом без какой-либо надзорности по множеству задач в смоделированных областях. Мы также показываем, что RLZero может генерировать политики нулевым образом из кросс-телесных видео, таких как те, что собираются с YouTube.

2024-12-09language reinforcement learning

WildLMa: Долгосрочное локоманипуляционное обучение в реальных условиях

"Манипуляции мобильными роботами 'в дикой природе' стремятся развертывать роботов в разнообразных реальных условиях, что требует от робота: (1) обладать навыками, которые могут обобщаться на различные конфигурации объектов; (2) быть способным к выполнению задач с длительным горизонтом в различных средах; и (3) выполнять сложные манипуляции, выходящие за рамки простого захвата и перемещения. Четвероногие роботы с манипуляторами обещают расширить рабочее пространство и обеспечить надежную локомоцию, но существующие результаты не исследуют такие возможности. В данной статье предлагается WildLMa с тремя компонентами для решения этих проблем: (1) адаптация обученного низкоуровневого контроллера для телеоперации всего тела с использованием VR и проходимости; (2) WildLMa-Skill — библиотека обобщаемых визуомоторных навыков, полученных с помощью обучения по подражанию или эвристик; и (3) WildLMa-Planner — интерфейс для обученных навыков, позволяющий планировщикам на основе LLM координировать навыки для задач с длительным горизонтом. Мы демонстрируем важность высококачественных тренировочных данных, достигая более высокого уровня успеха в захвате объектов по сравнению с существующими базовыми методами RL, используя всего несколько десятков демонстраций. WildLMa использует CLIP для обучения по подражанию с условием языка, что эмпирически обобщается на объекты, не виденные в процессе обучения. Помимо обширной количественной оценки, мы качественно демонстрируем практические приложения роботов, такие как уборка мусора в университетских коридорах или на открытой местности, работа с подвижными объектами и перестановка предметов на книжной полке."

2024-11-25vision imitation generalization