Максимизация согласования с минимальной обратной связью: Эффективное обучение вознаграждений для согласования визуомоторной политики робота

Современные визуомоторные политики роботов, которые предсказывают действия на основе высокоразмерных изображений, становятся все более совершенными благодаря предварительному обучению на больших масштабных наборах данных. Однако, несмотря на значительные достижения, существует серьезная проблема — несоответствие между действиями робота и предпочтениями конечного пользователя. Эта проблема особенно актуальна в сценариях, где предпочтения трудно выразить в явной форме.

Традиционно для решения проблемы несоответствия используется метод обучения с подкреплением на основе человеческой обратной связи (RLHF). Этот подход позволяет обучать модели, основываясь на предпочтениях, выраженных пользователями. Однако, в случае визуомоторных политик, RLHF сталкивается с серьезными ограничениями, связанными с необходимостью большого объема человеческой обратной связи для обучения визуальных функций вознаграждения.

В данной статье мы представляем метод, известный как Обучение на основе предпочтений, выровненное по представлению (RAPL). Этот метод предлагает новый подход к обучению визуальных вознаграждений с использованием значительно меньшего объема человеческой обратной связи. Вместо того чтобы полагаться на традиционные методы RLHF, RAPL фокусируется на дообучении предварительно обученных визуальных энкодеров, чтобы они соответствовали визуальному представлению конечного пользователя, и затем строит плотное визуальное вознаграждение через сопоставление признаков в этом выровненном пространстве представлений.

Проблема согласования визуомоторной политики

Визуомоторные политики роботов, такие как манипуляторы или автономные автомобили, часто обучаются на больших наборах данных, что позволяет им эффективно выполнять задачи. Однако, несмотря на это, они могут действовать не в соответствии с предпочтениями пользователей. Например, робот, обученный поднимать пакет с чипсами, может сжимать его в середине, что приводит к повреждению содержимого, в то время как пользователь предпочел бы, чтобы он держал пакет за края.

Обучение с подкреплением на основе человеческой обратной связи (RLHF) предполагает, что пользователи дают обратную связь о действиях робота, что позволяет модели корректировать свою политику. Однако в визуомоторных задачах требуется слишком много обратной связи, что делает этот подход неэффективным.

RAPL: Обучение на основе предпочтений, выровненное по представлению

RAPL предлагает новый подход к обучению визуальных вознаграждений, который существенно снижает объем необходимой человеческой обратной связи. Основная идея заключается в том, чтобы сосредоточить обратную связь пользователей на дообучении предварительно обученных визуальных энкодеров, чтобы они лучше соответствовали визуальному восприятию пользователей.

Алгоритм RAPL

Выравнивание представлений: Первым шагом является дообучение визуального энкодера на основе обратной связи от пользователя. Это позволяет создать визуальное представление, которое соответствует предпочтениям пользователя.
Построение визуального вознаграждения: После выравнивания представлений мы можем непосредственно строить визуальное вознаграждение, используя методы сопоставления признаков, такие как оптимальный транспорт. Это позволяет нам измерять, насколько хорошо действия робота соответствуют предпочтениям пользователя.

Преимущества RAPL

Снижение объема обратной связи: RAPL требует в 5 раз меньше реальной человеческой обратной связи по сравнению с традиционными методами RLHF.
Универсальность: Метод демонстрирует сильную обобщающую способность, позволяя применять выученные вознаграждения к различным роботам и задачам.
Эффективность: RAPL позволяет быстро и эффективно обучать визуомоторные политики, минимизируя затраты на сбор данных.

Эксперименты и результаты

Симуляционные эксперименты

Мы провели серию симуляционных экспериментов, чтобы оценить эффективность RAPL в обучении визуальных вознаграждений и согласовании политик роботов. Эксперименты проводились в различных средах, включая X-Magical и манипуляцию с роботами Franka Panda.

Результаты: RAPL показал высокую степень согласования с предпочтениями пользователей, а также улучшенную эффективность использования данных по сравнению с традиционными подходами. Например, в задачах манипуляции, RAPL достигал успеха в 80% случаев, тогда как традиционные методы показывали значительно худшие результаты.

Аппаратные эксперименты

После успешных симуляционных тестов мы применили RAPL в реальных условиях. Мы использовали предварительно обученные политики диффузии для выполнения трех задач манипуляции: подъем чашки, подъем пакета с чипсами и размещение вилки в миске.

Результаты: В ходе экспериментов RAPL смог успешно согласовать действия робота с предпочтениями пользователей, минимизируя при этом объем необходимой обратной связи. Например, для выравнивания политики, основанной на диффузии, RAPL использовал всего 20 ранжирований предпочтений, что в 5 раз меньше, чем требовалось для традиционных методов.

Заключение

RAPL представляет собой значительный шаг вперед в области согласования визуомоторных политик роботов с предпочтениями пользователей. Метод демонстрирует высокую эффективность в обучении визуальных вознаграждений с минимальным объемом обратной связи, что открывает новые возможности для применения в реальных сценариях. Мы надеемся, что дальнейшие исследования в этой области помогут улучшить согласование политик и снизить нагрузку на пользователей, связанную с предоставлением обратной связи.

Статья на arxiv Оригинал pdf alignment policy feedback

Ай Дайджест