CARP: Новая Парадигма Обучения Политике Визуомоторных Действий

В последние годы в области робототехники наблюдается значительный прогресс в обучении политике визуомоторных действий. Одним из наиболее перспективных направлений является использование генеративных моделей, таких как диффузионные модели, которые продемонстрировали впечатляющие результаты в предсказании траекторий действий. Однако эти методы часто сталкиваются с проблемами, связанными с вычислительной эффективностью и гибкостью, особенно в реальных приложениях, где требуется быстрая обработка данных. В этой статье мы рассмотрим новую парадигму, предложенную в работе CARP (Coarse-to-Fine Autoregressive Policy), которая объединяет преимущества традиционных автогрессивных моделей и диффузионных подходов, обеспечивая высокую производительность и эффективность.

Обучение политике на основе демонстраций представляет собой задачу, в которой необходимо сопоставить наблюдения с соответствующими действиями. Это может быть формализовано как задача регрессии, где модель обучается минимизировать ошибку предсказания действий на основе исторических данных. В последние годы диффузионные модели продемонстрировали свою эффективность в улучшении точности предсказания траекторий действий по сравнению с традиционными автогрессивными моделями. Тем не менее, они требуют множества шагов денойзинга, что делает их вычислительно затратными и менее гибкими в условиях сложных ограничений.

Проблема Формулировки

Проблема формулировки в контексте CARP включает в себя задачу T, где имеется N демонстраций {τ_i} от экспертов. Каждая демонстрация τ_i представляет собой последовательность пар состояние-действие. Обучение модели сводится к минимизации ошибки в будущих действиях с учетом исторических состояний. Это достигается через минимизацию потерь, таких как поведение клонирования (behavior cloning loss).

Традиционные Автогрессивные Политики

Автогрессивные модели, такие как GPT-стили, обеспечивают эффективность и гибкость в предсказании действий. Однако их подход к предсказанию следующего токена может ограничивать способность захватывать глобальную структуру и временные зависимости, что критично для многих роботизированных задач. В результате, традиционные автогрессивные политики могут демонстрировать плохие результаты в сложных сценариях.

Диффузионные Политики

Диффузионные модели, наоборот, используют процесс денойзинга для приближения условного распределения действий. Эти модели показывают высокую производительность, однако требуют множества итеративных шагов, что делает их неэффективными для задач, требующих быстрого реагирования. Более того, их жесткие ограничения могут приводить к накоплению ошибок и снижению устойчивости при длительных временных интервалах.

CARP: Концепция и Архитектура

CARP предлагает новую парадигму, которая сочетает в себе высокую производительность диффузионных моделей с эффективностью автогрессивных подходов. Основная идея заключается в том, чтобы переопределить процесс генерации действий как подход "от грубого к тонкому", который включает два основных этапа: токенизация действий и автогрессивное предсказание.

Многоуровневая Токенизация Действий

Первый этап включает в себя использование автоэнкодера для извлечения многоуровневых представлений всей последовательности действий. Это позволяет модели захватывать глобальную структуру и сохранять временную локальность, что решает ограничения традиционных автогрессивных моделей. Токенизация представлений осуществляется через модифицированный VQVAE (Vector Quantized Variational Autoencoder), который создает K дискретных токенов для представления последовательности действий.

Автогрессивное Предсказание "От Грубого к Тонкому"

На втором этапе CARP использует трансформер, подобный GPT, для уточнения предсказания последовательности действий через автогрессивный процесс "от грубого к тонкому". Этот подход позволяет модели последовательно уточнять действия, начиная с более грубых представлений и переходя к более детализированным, что обеспечивает плавность и точность действий.

Экспериментальная Оценка

CARP был протестирован в различных сценариях, включая задачи с использованием как базовых состояний, так и изображений. Результаты показали, что CARP достигает конкурентоспособных показателей успешности, превосходя существующие модели на 10% и обеспечивая в 10 раз более быструю инференцию по сравнению с современными политиками.

Оценка в Симуляциях

В симуляционных экспериментах CARP продемонстрировал высокую точность и эффективность в задачах, таких как Lift, Can и Square, где он превзошел традиционные автогрессивные модели и диффузионные политики. Это подтверждает его способность к обучению и обобщению на различных задачах.

Оценка в Реальных Условиях

CARP также успешно применялся в реальных задачах с использованием роботизированной руки UR5e, где он показал конкурентоспособные результаты по сравнению с диффузионными политиками. Это подчеркивает его практическую применимость и эффективность в реальных условиях.

Заключение

CARP представляет собой мощный инструмент для обучения визуомоторной политики, который сочетает в себе преимущества автогрессивных и диффузионных моделей. Его подход "от грубого к тонкому" позволяет достичь высокой точности и эффективности, что делает его идеальным для применения в реальных роботизированных задачах. В будущем CARP может стать основой для дальнейших исследований в области генеративного моделирования и обучения политике, открывая новые горизонты для развития робототехники и автоматизации.

Статья на arxiv Оригинал pdf learning policy autoregressive

Ай Дайджест