GRAPE: Обобщение политики робота через выравнивание предпочтений

С недавним развитием моделей, основанных на взаимодействии визуальных, языковых и действиях (VLA), наблюдается значительный прогресс в области робототехники. Эти модели продемонстрировали впечатляющие способности при выполнении различных задач манипуляции. Однако они сталкиваются с критическими проблемами, среди которых низкая обобщаемость к новым задачам и зависимость от поведения, основанного на клонировании успешных результатов. Это ограничивает их адаптивность к разнообразным целям манипуляции, таким как эффективность, безопасность и завершение задач.

Чтобы преодолеть эти ограничения, мы предлагаем GRAPE (Generalizing Robot Policy via Preference Alignment). GRAPE нацелена на выравнивание VLA на уровне траекторий и имплицитно моделирует вознаграждение как на основе успешных, так и неудачных испытаний, что способствует улучшению обобщаемости к разнообразным задачам. В этой статье мы представим основные концепции GRAPE, включая разбиение сложных задач манипуляции на независимые этапы и автоматическое руководство моделированием предпочтений через специализированные пространственно-временные ограничения.

Проблемы VLA моделей

Несмотря на достижения, модели VLA имеют несколько серьезных недостатков. Они часто зависят от методов супервизированного дообучения (SFT), что приводит к имитации действий, основанных только на успешных результатах. Это создает проблемы с обобщаемостью, поскольку модели не развивают целостное понимание целей задач или потенциальных паттернов неудач. Кроме того, SFT данные часто содержат неявно разные ценности, такие как завершение задач и безопасность, которые не всегда четко определены в данных.

Ограниченная обобщаемость

Основная проблема с VLA моделями заключается в их ограниченной способности обобщаться на новые объекты, задачи и контексты. Это связано с тем, что они обучаются на ограниченном наборе успешных демонстраций, что приводит к недостаточной гибкости при столкновении с новыми ситуациями.

Поведение, основанное на клонировании

Модели VLA часто используют поведение, основанное на клонировании, что означает, что они просто повторяют успешные действия из обучающего набора. Это приводит к тому, что модели не развивают интуитивное понимание задач, что в конечном итоге приводит к низкой производительности в новых средах.

Концепция GRAPE

GRAPE предлагает решение, которое направлено на улучшение обобщаемости и адаптивности VLA моделей. Основные компоненты GRAPE включают:

Выравнивание по траекториям: GRAPE нацеливается на выравнивание политик VLA на уровне траекторий, что позволяет моделям учитывать как успешные, так и неудачные попытки в процессе обучения.
Разбиение задач на этапы: Сложные задачи манипуляции разбиваются на независимые этапы, что позволяет легче управлять предпочтениями и оценивать производительность на каждом этапе.
Генерация предпочтений: GRAPE использует мощные модели визуального и языкового понимания для автоматической генерации предпочтений и оценки производительности на каждом этапе.
Итеративная оптимизация предпочтений: Этот процесс включает в себя повторное обучение на основе предпочтений, что позволяет модели улучшать свои действия на основе обратной связи.

Технические аспекты GRAPE

1. Выравнивание по траекториям

GRAPE использует метод, называемый оптимизацией предпочтений по траекториям (TPO), который позволяет моделям VLA оптимизировать свои действия на основе оценки как успешных, так и неудачных траекторий. Это достигается путем формирования функции вознаграждения, которая учитывает как успешные, так и неудачные попытки.

2. Разбиение задач

Задачи разбиваются на несколько этапов, каждый из которых имеет свои собственные цели и ограничения. Это позволяет модели сосредоточиться на более простых подзадачах, что делает процесс более управляемым и эффективным. Каждый этап включает в себя ключевые точки, которые служат ориентирами для выполнения задачи.

3. Генерация предпочтений

GRAPE использует мощные модели, такие как LLM (Large Language Model) и другие модели визуального понимания, для генерации предпочтений, которые учитывают различные цели манипуляции. Эти предпочтения позволяют модели адаптироваться к специфическим условиям задачи, таким как безопасность и эффективность.

4. Итеративная оптимизация

Итеративная оптимизация предпочтений позволяет модели постепенно улучшать свои действия на основе полученной обратной связи. Этот процесс включает в себя выбор лучших и худших траекторий на основе их вознаграждений и последующее обновление модели.

Экспериментальные результаты

GRAPE была протестирована в различных условиях, как в реальных, так и в симулированных средах. Результаты показывают значительное улучшение производительности по сравнению с современными VLA моделями.

Увеличение успеха

GRAPE продемонстрировала увеличение успешных попыток выполнения задач на 51.79% в доменных условиях и 60.36% в условиях, не представленных на обучении. Это подчеркивает ее способность обобщаться на новые задачи и условия.

Адаптация к целям

GRAPE также продемонстрировала возможность адаптироваться к различным целям, таким как безопасность и эффективность, уменьшая количество столкновений на 44.31% и сокращая длину шагов выполнения на 11.15%.

Заключение

GRAPE представляет собой значительный шаг вперед в области робототехники, обеспечивая более высокую обобщаемость и адаптивность для моделей VLA. Эта методология позволяет моделям лучше справляться с разнообразными целями манипуляции и адаптироваться к новым условиям, что делает их более эффективными и безопасными в реальных сценариях.

Тем не менее, GRAPE имеет свои ограничения, включая зависимость от разнообразия данных и необходимость в ручной настройке для достижения оптимальных результатов. Будущие исследования могут сосредоточиться на автоматизации процесса генерации предпочтений и адаптации к различным задачам, что позволит улучшить производительность и снизить потребность в человеческом вмешательстве.

Таким образом, GRAPE открывает новые горизонты для применения VLA моделей в робототехнике, предлагая более гибкие и адаптивные подходы к выполнению задач манипуляции.

Статья на arxiv Оригинал pdf generalization adaptability modeling

Ай Дайджест