Ай Дайджест - категория policies

Эффективные политики диффузии с помощью смеси экспертов для многозадачного обучения

Политики диффузии стали широко использоваться в обучении подражанию, предлагая несколько привлекательных свойств, таких как генерация многомодального и разрывного поведения. Поскольку модели становятся больше, чтобы захватить более сложные возможности, их вычислительные требования увеличиваются, как показано недавними законами масштабирования. Поэтому продолжение работы с текущими архитектурами будет представлять собой вычислительное ограничение. Для решения этой проблемы мы предлагаем смесь экспертов по денойзингу (MoDE) в качестве новой политики для обучения подражанию. MoDE превосходит современные высококлассные политики диффузии на основе трансформеров, обеспечивая при этом эффективное масштабирование параметров за счет разреженных экспертов и маршрутизации, условной от шума, снижая как активные параметры на 40%, так и затраты на вывод на 90% за счет кэширования экспертов. Наша архитектура сочетает это эффективное масштабирование с механизмом самовнимания, условным от шума, что позволяет более эффективно проводить денойзинг на разных уровнях шума. MoDE достигает выдающейся производительности по 134 задачам в четырех известных бенчмарках по обучению подражанию (CALVIN и LIBERO). Примечательно, что, предварительно обучив MoDE на разнообразных данных о робототехнике, мы достигаем 4.01 на CALVIN ABC и 0.95 на LIBERO-90. Он превосходит как политики диффузии на основе CNN, так и трансформеров в среднем на 57% по 4 бенчмаркам, используя при этом на 90% меньше FLOPs и меньше активных параметров по сравнению с архитектурами диффузионных трансформеров по умолчанию. Кроме того, мы проводим комплексные анализы компонентов MoDE, предоставляя полезные сведения для проектирования эффективных и масштабируемых архитектур трансформеров для политик диффузии. Код и демонстрации доступны по адресу https://mbreuss.github.io/MoDE_Diffusion_Policy/.

2024-12-19imitation diffusion policies

RLDG: Дистилляция Политик Генералистов с Помощью Обучения с Подкреплением

Недавние достижения в области робототехнических базовых моделей позволили разработать универсальные политики, которые могут адаптироваться к различным задачам. Хотя эти модели демонстрируют впечатляющую гибкость, их эффективность сильно зависит от качества их обучающих данных. В этой работе мы предлагаем метод Обобщенных Политик, Дистиллированных с Помощью Обучения с Подкреплением (RLDG), который использует обучение с подкреплением для генерации высококачественных обучающих данных для дообучения универсальных политик. Через обширные эксперименты в реальном мире, сосредоточенные на точных манипуляциях, таких как вставка разъемов и сборка, мы показываем, что универсальные политики, обученные на данных, сгенерированных с помощью RL, последовательно превосходят те, которые обучались на демонстрациях человека, достигая до 40% более высоких коэффициентов успеха, при этом лучше обобщаясь на новые задачи. Мы также предоставляем подробный анализ, который показывает, что это улучшение связано как с оптимизированными распределениями действий, так и с улучшенным охватом состояний. Наши результаты предполагают, что сочетание специфического для задач обучения с подкреплением с дистилляцией универсальных политик представляет собой многообещающий подход для разработки более способных и эффективных систем роботизированной манипуляции, которые сохраняют гибкость базовых моделей, достигая при этом производительности специализированных контроллеров. Видео и код можно найти на нашем проектном сайте https://generalist-distillation.github.io

2024-12-17learning generalist manipulation

TidyBot++: Открытый мобильный манипулятор для обучения роботов

Использование обещаний недавних достижений в области имитационного обучения для мобильной манипуляции потребует сбора большого количества демонстраций, проведенных людьми. В данной статье предлагается открытый дизайн недорогого, надежного и гибкого мобильного манипулятора, который может поддерживать произвольные руки, что позволяет выполнять широкий спектр задач мобильной манипуляции в реальных условиях дома. Ключевым моментом нашего дизайна является использование электродвигателей на колесах, которые позволяют мобильной базе быть полностью гономной, управляя всеми плоскими степенями свободы независимо и одновременно. Эта функция делает базу более маневренной и упрощает многие задачи мобильной манипуляции, устраняя кинематические ограничения, которые создают сложные и трудоемкие движения в негонимических базах. Мы оснастили нашего робота интуитивно понятным интерфейсом телеприсутствия с помощью мобильного телефона, чтобы упростить сбор данных для имитационного обучения. В наших экспериментах мы используем этот интерфейс для сбора данных и показываем, что полученные обученные политики могут успешно выполнять различные распространенные задачи мобильной манипуляции в домах.

2024-12-17demonstrations mobile teleoperation