Ай Дайджест - категория generalist

RLDG: Дистилляция Политик Генералистов с Помощью Обучения с Подкреплением

Недавние достижения в области робототехнических базовых моделей позволили разработать универсальные политики, которые могут адаптироваться к различным задачам. Хотя эти модели демонстрируют впечатляющую гибкость, их эффективность сильно зависит от качества их обучающих данных. В этой работе мы предлагаем метод Обобщенных Политик, Дистиллированных с Помощью Обучения с Подкреплением (RLDG), который использует обучение с подкреплением для генерации высококачественных обучающих данных для дообучения универсальных политик. Через обширные эксперименты в реальном мире, сосредоточенные на точных манипуляциях, таких как вставка разъемов и сборка, мы показываем, что универсальные политики, обученные на данных, сгенерированных с помощью RL, последовательно превосходят те, которые обучались на демонстрациях человека, достигая до 40% более высоких коэффициентов успеха, при этом лучше обобщаясь на новые задачи. Мы также предоставляем подробный анализ, который показывает, что это улучшение связано как с оптимизированными распределениями действий, так и с улучшенным охватом состояний. Наши результаты предполагают, что сочетание специфического для задач обучения с подкреплением с дистилляцией универсальных политик представляет собой многообещающий подход для разработки более способных и эффективных систем роботизированной манипуляции, которые сохраняют гибкость базовых моделей, достигая при этом производительности специализированных контроллеров. Видео и код можно найти на нашем проектном сайте https://generalist-distillation.github.io

2024-12-17reinforcement data training