Ай Дайджест - категория policy

E,M,M,A,-,X: Модель многомодального действия с основанной цепочкой размышлений и пространственным прогнозированием

Традиционные методы управления роботами на основе обучения с подкреплением часто являются специфическими для задачи и не могут обобщаться на разнообразные среды или невидимые объекты и инструкции. Визуальные языковые модели (VLM) демонстрируют сильные способности к пониманию сцен и планированию, но им не хватает способности генерировать осуществимые политики, адаптированные для конкретных роботизированных тел. Чтобы решить эту проблему, появились модели визуально-языкового-действия (VLA), однако они сталкиваются с трудностями в пространственном рассуждении на дальних горизонтах и основанном на задачах планировании. В данной работе мы предлагаем Модель Эмбедированного Мультимодального Действия с Основанной Цепочкой Мыслей и Предварительным Пространственным Рассуждением, Emma-X. Emma-X использует наш конструктивный иерархический набор данных об эмбедировании на основе BridgeV2, содержащий 60,000 траекторий манипуляции роботов, автоаннотированных с обоснованным рассуждением по задачам и пространственным руководством. Кроме того, мы вводим стратегию сегментации траекторий на основе состояния захвата и траекторий движения, что может помочь смягчить галлюцинацию при генерации обоснованного рассуждения по подзадачам. Экспериментальные результаты демонстрируют, что Emma-X достигает превосходных результатов по сравнению с конкурентоспособными базовыми значениями, особенно в реальных роботизированных задачах, требующих пространственного рассуждения.

2024-12-17reinforcement planning generalization

Максимизация согласования с минимальной обратной связью: Эффективное обучение вознаграждений для согласования визуомоторной политики робота

Политики визуомоторных роботов, все более предобученные на больших наборах данных, обещают значительные достижения в различных областях робототехники. Однако согласование этих политик с предпочтениями конечных пользователей остается проблемой, особенно когда предпочтения трудно указать. Хотя обучение с подкреплением на основе человеческой обратной связи (RLHF) стало преобладающим механизмом для согласования в не-облаченных областях, таких как большие языковые модели, оно не достигло такого же успеха в согласовании визуомоторных политик из-за колоссального объема обратной связи от людей, необходимого для изучения визуальных функций награды. Чтобы решить эту проблему, мы предлагаем Обучение на основе предпочтений, выровненных по представлению (RAPL), метод, основанный только на наблюдениях, для обучения визуальным наградам, используя значительно меньше обратной связи от человеческих предпочтений. В отличие от традиционного RLHF, RAPL сосредоточивает обратную связь от людей на дообучении предобученных визуальных энкодеров для согласования с визуальным представлением конечного пользователя, а затем строит плотную визуальную награду через сопоставление признаков в этом согласованном пространстве представлений. Сначала мы валидируем RAPL через симуляционные эксперименты в бенчмарке X-Magical и манипуляции с роботом Franka Panda, демонстрируя, что он может учить награды, согласованные с человеческими предпочтениями, более эффективно использует данные предпочтений и обобщает на различных воплощениях роботов. Наконец, наши аппаратные эксперименты согласовывают предобученные Политики диффузии для трех задач манипуляции объектами. Мы обнаружили, что RAPL может дообучать эти политики, используя в 5 раз меньше реальных данных о предпочтениях людей, делая первый шаг к минимизации требований к человеческой обратной связи при максимизации согласования политик визуомоторного робота.

2024-12-11robotics learning alignment

CARP: Новая Парадигма Обучения Политике Визуомоторных Действий

В обучении визуомоторной политики с помощью роботов модели на основе диффузии добились значительного успеха в улучшении точности генерации траектории действий по сравнению с традиционными авторегрессионными моделями. Однако они страдают от неэффективности из-за нескольких шагов денойзинга и ограниченной гибкости из-за сложных ограничений. В этой статье мы представляем метод Coarse-to-Fine AutoRegressive Policy (CARP) — новую парадигму для обучения визуомоторной политики, которая переопределяет процесс генерации действий авторегрессии как подход «грубого в тонкое» на следующем уровне. CARP декомпозирует генерацию действий на два этапа: сначала автоэнкодер действий обучает многомасштабные представления всей последовательности действий; затем трансформер в стиле GPT уточняет предсказание последовательности через авторегрессивный процесс «грубого в тонкое». Этот простой и интуитивно понятный подход производит высокоточные и плавные действия, соответствуя или даже превосходя производительность политик на основе диффузии, при этом сохраняя эффективность на уровне авторегрессионных политик. Мы проводим обширные оценки в различных условиях, включая сценарии одиночных и многозадачных задач на основе состояния и изображений, а также в реальных задачах. CARP достигает конкурентоспособных показателей успеха с улучшением до 10% и обеспечивает в 10 раз более быструю инференцию по сравнению с современными политиками, устанавливая высокопроизводительную, эффективную и гибкую парадигму для генерации действий в роботизированных задачах.

2024-12-10robotics autoregressive policy

RLZero: Нулевая генерация поведения из языка без обучения

Награды остаются неприемлемым способом определения задач для обучения с подкреплением, так как люди часто не могут предсказать оптимальное поведение для любой данной функции награды, что приводит к плохому дизайну наград и взлому наград. Язык представляет собой привлекательный способ передачи намерений агентам и обхода дизайна наград, но предыдущие попытки сделать это были ограничены дорогостоящими и не масштабируемыми усилиями по маркировке. В этой работе мы предлагаем метод полностью неконтролируемой альтернативы grounding языковых инструкций нулевым образом для получения политик. Мы представляем решение, которое принимает форму воображения, проекции и имитации: агент воображает последовательность наблюдений, соответствующую языковому описанию задачи, проецирует воображаемую последовательность в нашу целевую область и закрепляет ее за политикой. Модели видео-языка позволяют нам представлять описания задач, которые используют знания о задачах, полученные из видео-текстовых сопоставлений на интернет-уровне. Проблема остается в том, чтобы закрепить эти генерации за политикой. В этой работе мы показываем, что можем достичь политики «язык-в-поведение» нулевым образом, сначала закрепив воображаемые последовательности в реальных наблюдениях неконтролируемого агента RL и используя замкнутое решение для обучения имитации, которое позволяет агенту RL подражать закрепленным наблюдениям. Наш метод, RLZero, является первым, насколько нам известно, кто показывает способности генерации «языка в поведение» нулевым образом без какой-либо надзорности по множеству задач в смоделированных областях. Мы также показываем, что RLZero может генерировать политики нулевым образом из кросс-телесных видео, таких как те, что собираются с YouTube.

2024-12-09imitation unsupervised learning

Самопроверка длины: политика динамической длины для спекулятивного декодирования

2024-11-28entropy tokens policy

DiffusionDrive: Трунированная диффузионная модель для автономного вождения

Недавно модель диффузии стала мощной генеративной техникой для обучения роботизированным стратегиям, способной моделировать многомодальные распределения действий. Использование ее возможностей для автономного вождения является многообещающим направлением. Однако многочисленные этапы снижения шума в роботизированной политике диффузии и более динамичный, открытый характер дорожных сцен представляют собой значительные проблемы для генерации разнообразных действий вождения с реальной скоростью. Чтобы решить эти проблемы, мы предлагаем новую усеченную политику диффузии, которая включает в себя предварительные многомодальные якоря и укорачивает график диффузии, позволяя модели учиться снижению шума от закрепленного гауссовского распределения к многомодальному распределению действий вождения. Кроме того, мы разработали эффективный декодер каскадной диффузии для улучшенного взаимодействия с условным контекстом сцены. Предложенная модель, DiffusionDrive, демонстрирует уменьшение количества шагов снижения шума в 10 раз по сравнению с обычной политикой диффузии, обеспечивая превосходное разнообразие и качество всего за 2 шага. На ориентированном на планирование наборе данных NAVSIM, с согласованным базовым компонентом ResNet-34, DiffusionDrive достигает 88,1 PDMS без лишних наворотов, устанавливая новый рекорд, при этом работая со скоростью 45 FPS на NVIDIA 4090. Качественные результаты в сложных сценариях дополнительно подтверждают, что DiffusionDrive может надежно генерировать разнообразные правдоподобные действия вождения. Код и модель будут доступны по адресу https://github.com/hustvl/DiffusionDrive.

2024-11-28learning driving policy

Естественное Языковое Усиление Обучения (NLRL): Введение в новый парадигм

Усиленное обучение (RL) математически формулирует процесс принятия решений с помощью Марковского процесса принятия решений (MDP). С использованием MDP исследователи достигли замечательных прорывов в различных областях, включая игры, робототехнику и языковые модели. В данной статье рассматривается новая возможность — Усиленное обучение на естественном языке (NLRL), путем расширения традиционного MDP на пространство представлений на основе естественного языка. В частности, NLRL инновационно переопределяет принципы RL, включая цели задач, политику, функцию стоимости, уравнение Беллмана и итерацию политики, на их языковые аналоги. С недавними достижениями в области крупных языковых моделей (LLMs), NLRL может быть реализован на практике для достижения улучшения политики и стоимости, аналогичного RL, либо через чистое подсказывание, либо через обучение на основе градиентов. Эксперименты на играх Лабиринт, Прорыв и Крестики-нолики демонстрируют эффективность, производительность и интерпретируемость фреймворка NLRL в различных сценариях использования. Наш код будет опубликован по адресу https://github.com/waterhorse1/Natural-language-RL.

2024-11-22reinforcement iteration training

IGOR: Объединяя миры людей и роботов через латентные действия

Мы представляем Представления Целевого Образа (IGOR), цель которых - научиться единому, семантически согласованному пространству действий для людей и различных роботов. Благодаря этому унифицированному скрытому пространству действий, IGOR позволяет передавать знания между масштабными данными активности роботов и людей. Мы достигаем этого, сжимая визуальные изменения между начальным изображением и его конечным состоянием в скрытые действия. IGOR позволяет нам генерировать метки скрытых действий для видеоданных интернет-маштаба. Это унифицированное скрытое пространство действий способствует обучению базовой политики и моделей мира для широкого спектра задач, выполняемых как роботами, так и людьми. Мы демонстрируем следующее: 1) **IGOR обучает семантически согласованное пространство действий для людей и роботов**, характеризуя различные возможные движения объектов, представляющие знания о физическом взаимодействии; 2) **IGOR может "переносить" движения объекта из одного видео в другие**, даже между человеком и роботами, используя совместно модель скрытых действий и модель мира; 3) **IGOR может научиться согласовывать скрытые действия с естественным языком через модель базовой политики** и интегрировать скрытые действия с моделью низкоуровневой политики для достижения эффективного управления роботами. Мы считаем, что IGOR открывает новые возможности для передачи знаний и управления от человека к роботу.

2024-11-05video learning representation