Свежая выжимка ml и AI статей - каждый день
Современные визуомоторные политики роботов, которые предсказывают действия на основе высокоразмерных изображений, становятся все более совершенными благодаря предварительному обучению на больших масштабных наборах данных. Однако, несмотря на значительные достижения, существует серьезная проблема — несоответствие между действиями робота и предпочтениями конечного пользователя. Эта проблема особенно актуальна в сценариях, где предпочтения трудно выразить в явной форме.
Традиционно для решения проблемы несоответствия используется метод обучения с подкреплением на основе человеческой обратной связи (RLHF). Этот подход позволяет обучать модели, основываясь на предпочтениях, выраженных пользователями. Однако, в случае визуомоторных политик, RLHF сталкивается с серьезными ограничениями, связанными с необходимостью большого объема человеческой обратной связи для обучения визуальных функций вознаграждения.
В данной статье мы представляем метод, известный как Обучение на основе предпочтений, выровненное по представлению (RAPL). Этот метод предлагает новый подход к обучению визуальных вознаграждений с использованием значительно меньшего объема человеческой обратной связи. Вместо того чтобы полагаться на традиционные методы RLHF, RAPL фокусируется на дообучении предварительно обученных визуальных энкодеров, чтобы они соответствовали визуальному представлению конечного пользователя, и затем строит плотное визуальное вознаграждение через сопоставление признаков в этом выровненном пространстве представлений.
Визуомоторные политики роботов, такие как манипуляторы или автономные автомобили, часто обучаются на больших наборах данных, что позволяет им эффективно выполнять задачи. Однако, несмотря на это, они могут действовать не в соответствии с предпочтениями пользователей. Например, робот, обученный поднимать пакет с чипсами, может сжимать его в середине, что приводит к повреждению содержимого, в то время как пользователь предпочел бы, чтобы он держал пакет за края.
Обучение с подкреплением на основе человеческой обратной связи (RLHF) предполагает, что пользователи дают обратную связь о действиях робота, что позволяет модели корректировать свою политику. Однако в визуомоторных задачах требуется слишком много обратной связи, что делает этот подход неэффективным.
RAPL предлагает новый подход к обучению визуальных вознаграждений, который существенно снижает объем необходимой человеческой обратной связи. Основная идея заключается в том, чтобы сосредоточить обратную связь пользователей на дообучении предварительно обученных визуальных энкодеров, чтобы они лучше соответствовали визуальному восприятию пользователей.
Мы провели серию симуляционных экспериментов, чтобы оценить эффективность RAPL в обучении визуальных вознаграждений и согласовании политик роботов. Эксперименты проводились в различных средах, включая X-Magical и манипуляцию с роботами Franka Panda.
Результаты: RAPL показал высокую степень согласования с предпочтениями пользователей, а также улучшенную эффективность использования данных по сравнению с традиционными подходами. Например, в задачах манипуляции, RAPL достигал успеха в 80% случаев, тогда как традиционные методы показывали значительно худшие результаты.
После успешных симуляционных тестов мы применили RAPL в реальных условиях. Мы использовали предварительно обученные политики диффузии для выполнения трех задач манипуляции: подъем чашки, подъем пакета с чипсами и размещение вилки в миске.
Результаты: В ходе экспериментов RAPL смог успешно согласовать действия робота с предпочтениями пользователей, минимизируя при этом объем необходимой обратной связи. Например, для выравнивания политики, основанной на диффузии, RAPL использовал всего 20 ранжирований предпочтений, что в 5 раз меньше, чем требовалось для традиционных методов.
RAPL представляет собой значительный шаг вперед в области согласования визуомоторных политик роботов с предпочтениями пользователей. Метод демонстрирует высокую эффективность в обучении визуальных вознаграждений с минимальным объемом обратной связи, что открывает новые возможности для применения в реальных сценариях. Мы надеемся, что дальнейшие исследования в этой области помогут улучшить согласование политик и снизить нагрузку на пользователей, связанную с предоставлением обратной связи.