Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "reinforcement"

Обучение универсального управления позами гуманоидных роботов на основе видео

Масштабируемое обучение гуманоидных роботов является ключевым для их развертывания в реальных приложениях. Хотя традиционные подходы в основном полагаются на обучение с подкреплением или телеуправление для достижения полного контроля над телом, они часто ограничены разнообразием симулированных сред и высокими затратами на сбор демонстраций. Напротив, видеозаписи людей являются повсеместными и представляют собой неиспользуемый источник семантической и движенческой информации, который может значительно улучшить способности обобщения гуманоидных роботов. Эта статья представляет Humanoid-X, крупномасштабный набор данных, состоящий из более чем 20 миллионов поз гуманоидных роботов с соответствующими текстовыми описаниями движений, разработанный для того, чтобы использовать эти обильные данные. Humanoid-X создается через комплексный процесс: добыча данных из Интернета, генерация видеозаголовков, перенаправление движений людей на гуманоидных роботов и обучение политике для развертывания в реальном мире. С помощью Humanoid-X мы дополнительно обучаем большую гуманоидную модель, UH-1, которая принимает текстовые инструкции в качестве входных данных и выдает соответствующие действия для управления гуманоидным роботом. Обширные симулированные и реальные эксперименты подтверждают, что наш масштабируемый подход к обучению приводит к превосходному обобщению в текстовом управлении гуманоидом, что является значительным шагом к адаптивным гуманоидным роботам, готовым к реальному миру.

Пропозер-Агент-Оценщик (PAE): Автономное открытие навыков для интернет-агентов на основе фундамента моделей

Видение широко способного и целенаправленного агента, например, агента для просмотра Интернета в цифровом мире и домашнего гуманоидного робота в физическом мире, быстро продвинулось благодаря способности обобщения основополагающих моделей. Такой универсальный агент должен обладать большим и разнообразным набором навыков, таких как нахождение маршрутов между двумя пунктами назначения и покупка конкретных товаров в Интернете. Если каждый навык необходимо указывать вручную через фиксированный набор аннотированных человеком инструкций, repertoire навыков агента будет обязательно ограничен из-за количества и разнообразия аннотированных человеком инструкций. В этой работе мы решаем эту задачу, предлагая систему Proposer-Agent-Evaluator (PAE), эффективную обучающую систему, которая позволяет агентам на основе основополагающих моделей самостоятельно открывать и практиковать навыки в дикой природе. В центре PAE находится контекстно-осведомленный предложитель задач, который автономно предлагает задачи для практики агента с учетом информации о контексте окружающей среды, такой как демонстрации пользователей или даже просто название самого веб-сайта для агентов просмотра Интернета. Затем политика агента пытается выполнить эти задачи с размышлениями и фактическими опирающимися на реальный мир операциями, а полученные траектории оцениваются автономным оценщиком успеха на основе VLM. Оценка успеха служит сигналом вознаграждения для агента, чтобы уточнить его политики через обучение с подкреплением (RL). Мы валидация PAE на сложной навигации по вебу на основе зрения, используя как реальные, так и саморазмещенные веб-сайты из WebVoyager и WebArena. Насколько нам известно, эта работа представляет собой первую эффективную обучающую систему, которая применяет автономное предложение задач с RL для агентов, обобщающих реальное основание, аннотированное человеком, с производительностью SOTA. Наши открытые контрольные точки и код можно найти на https://yanqval.github.io/PAE/.

E,M,M,A,-,X: Модель многомодального действия с основанной цепочкой размышлений и пространственным прогнозированием

Традиционные методы управления роботами на основе обучения с подкреплением часто являются специфическими для задачи и не могут обобщаться на разнообразные среды или невидимые объекты и инструкции. Визуальные языковые модели (VLM) демонстрируют сильные способности к пониманию сцен и планированию, но им не хватает способности генерировать осуществимые политики, адаптированные для конкретных роботизированных тел. Чтобы решить эту проблему, появились модели визуально-языкового-действия (VLA), однако они сталкиваются с трудностями в пространственном рассуждении на дальних горизонтах и основанном на задачах планировании. В данной работе мы предлагаем Модель Эмбедированного Мультимодального Действия с Основанной Цепочкой Мыслей и Предварительным Пространственным Рассуждением, Emma-X. Emma-X использует наш конструктивный иерархический набор данных об эмбедировании на основе BridgeV2, содержащий 60,000 траекторий манипуляции роботов, автоаннотированных с обоснованным рассуждением по задачам и пространственным руководством. Кроме того, мы вводим стратегию сегментации траекторий на основе состояния захвата и траекторий движения, что может помочь смягчить галлюцинацию при генерации обоснованного рассуждения по подзадачам. Экспериментальные результаты демонстрируют, что Emma-X достигает превосходных результатов по сравнению с конкурентоспособными базовыми значениями, особенно в реальных роботизированных задачах, требующих пространственного рассуждения.

RLDG: Дистилляция Политик Генералистов с Помощью Обучения с Подкреплением

Недавние достижения в области робототехнических базовых моделей позволили разработать универсальные политики, которые могут адаптироваться к различным задачам. Хотя эти модели демонстрируют впечатляющую гибкость, их эффективность сильно зависит от качества их обучающих данных. В этой работе мы предлагаем метод Обобщенных Политик, Дистиллированных с Помощью Обучения с Подкреплением (RLDG), который использует обучение с подкреплением для генерации высококачественных обучающих данных для дообучения универсальных политик. Через обширные эксперименты в реальном мире, сосредоточенные на точных манипуляциях, таких как вставка разъемов и сборка, мы показываем, что универсальные политики, обученные на данных, сгенерированных с помощью RL, последовательно превосходят те, которые обучались на демонстрациях человека, достигая до 40% более высоких коэффициентов успеха, при этом лучше обобщаясь на новые задачи. Мы также предоставляем подробный анализ, который показывает, что это улучшение связано как с оптимизированными распределениями действий, так и с улучшенным охватом состояний. Наши результаты предполагают, что сочетание специфического для задач обучения с подкреплением с дистилляцией универсальных политик представляет собой многообещающий подход для разработки более способных и эффективных систем роботизированной манипуляции, которые сохраняют гибкость базовых моделей, достигая при этом производительности специализированных контроллеров. Видео и код можно найти на нашем проектном сайте https://generalist-distillation.github.io

M AX I NFO RL: Усовершенствование Исследования в Обучении с Подкреплением через Максимизацию Информационного Прибыли

Алгоритмы обучения с подкреплением (RL) стремятся сбалансировать использование текущей наилучшей стратегии с изучением новых вариантов, которые могут привести к более высоким вознаграждениям. Наиболее распространенные алгоритмы RL используют ненаправленное исследование, т.е. выбирают случайные последовательности действий. Исследование также может быть направленным с использованием внутренних вознаграждений, таких как любопытство или эпистемическая неопределенность модели. Однако эффективно сбалансировать задачи и внутренние вознаграждения сложно и часто зависит от конкретной задачи. В этой работе мы представляем рамки MaxInfoRL для балансировки внутреннего и внешнего исследования. MaxInfoRL нацеливает исследование на информативные переходы, максимизируя внутренние вознаграждения, такие как информационный прирост о базовой задаче. В сочетании с исследованием Больцмана этот подход естественным образом уравновешивает максимизацию функции ценности с максимизацией энтропии по состояниям, вознаграждениям и действиям. Мы показываем, что наш подход достигает подпорогового сожаления в упрощенной обстановке многоруких бандитов. Затем мы применяем эту общую формулировку к различным методам RL без политики для непрерывных пространств состояния-действия, что приводит к новым алгоритмам, которые достигают превосходной производительности в сложных задачах исследования и сложных сценариях, таких как задачи визуального управления.

Максимизация согласования с минимальной обратной связью: Эффективное обучение вознаграждений для согласования визуомоторной политики робота

Политики визуомоторных роботов, все более предобученные на больших наборах данных, обещают значительные достижения в различных областях робототехники. Однако согласование этих политик с предпочтениями конечных пользователей остается проблемой, особенно когда предпочтения трудно указать. Хотя обучение с подкреплением на основе человеческой обратной связи (RLHF) стало преобладающим механизмом для согласования в не-облаченных областях, таких как большие языковые модели, оно не достигло такого же успеха в согласовании визуомоторных политик из-за колоссального объема обратной связи от людей, необходимого для изучения визуальных функций награды. Чтобы решить эту проблему, мы предлагаем Обучение на основе предпочтений, выровненных по представлению (RAPL), метод, основанный только на наблюдениях, для обучения визуальным наградам, используя значительно меньше обратной связи от человеческих предпочтений. В отличие от традиционного RLHF, RAPL сосредоточивает обратную связь от людей на дообучении предобученных визуальных энкодеров для согласования с визуальным представлением конечного пользователя, а затем строит плотную визуальную награду через сопоставление признаков в этом согласованном пространстве представлений. Сначала мы валидируем RAPL через симуляционные эксперименты в бенчмарке X-Magical и манипуляции с роботом Franka Panda, демонстрируя, что он может учить награды, согласованные с человеческими предпочтениями, более эффективно использует данные предпочтений и обобщает на различных воплощениях роботов. Наконец, наши аппаратные эксперименты согласовывают предобученные Политики диффузии для трех задач манипуляции объектами. Мы обнаружили, что RAPL может дообучать эти политики, используя в 5 раз меньше реальных данных о предпочтениях людей, делая первый шаг к минимизации требований к человеческой обратной связи при максимизации согласования политик визуомоторного робота.

Раскрытие сложности памяти в агентах с подкрепляющим обучением: подход к классификации и оценке

Внедрение памяти в агентов имеет решающее значение для выполнения множества задач в области обучения с подкреплением (RL). В частности, память важна для задач, требующих использования прошлой информации, адаптации к новым условиям и повышения эффективности выборки. Однако термин «память» охватывает широкий спектр понятий, что, в сочетании с отсутствием единой методологии для проверки памяти агента, приводит к ошибочным суждениям о возможностях памяти агентов и препятствует объективному сравнению с другими агентами, наделенными памятью. Эта статья направлена на упрощение концепции памяти в RL, предоставляя практические и точные определения типов памяти агента, таких как долговременная и краткосрочная память, а также декларативная и процедурная память, вдохновленные когнитивной наукой. Используя эти определения, мы категоризируем различные классы памяти агентов, предлагаем надежную экспериментальную методологию для оценки возможностей памяти агентов RL и стандартизируем оценки. Более того, мы эмпирически демонстрируем важность соблюдения предложенной методологии при оценке различных типов памяти агентов, проводя эксперименты с разными агентами RL и последствиями ее нарушения.

RLZero: Нулевая генерация поведения из языка без обучения

Награды остаются неприемлемым способом определения задач для обучения с подкреплением, так как люди часто не могут предсказать оптимальное поведение для любой данной функции награды, что приводит к плохому дизайну наград и взлому наград. Язык представляет собой привлекательный способ передачи намерений агентам и обхода дизайна наград, но предыдущие попытки сделать это были ограничены дорогостоящими и не масштабируемыми усилиями по маркировке. В этой работе мы предлагаем метод полностью неконтролируемой альтернативы grounding языковых инструкций нулевым образом для получения политик. Мы представляем решение, которое принимает форму воображения, проекции и имитации: агент воображает последовательность наблюдений, соответствующую языковому описанию задачи, проецирует воображаемую последовательность в нашу целевую область и закрепляет ее за политикой. Модели видео-языка позволяют нам представлять описания задач, которые используют знания о задачах, полученные из видео-текстовых сопоставлений на интернет-уровне. Проблема остается в том, чтобы закрепить эти генерации за политикой. В этой работе мы показываем, что можем достичь политики «язык-в-поведение» нулевым образом, сначала закрепив воображаемые последовательности в реальных наблюдениях неконтролируемого агента RL и используя замкнутое решение для обучения имитации, которое позволяет агенту RL подражать закрепленным наблюдениям. Наш метод, RLZero, является первым, насколько нам известно, кто показывает способности генерации «языка в поведение» нулевым образом без какой-либо надзорности по множеству задач в смоделированных областях. Мы также показываем, что RLZero может генерировать политики нулевым образом из кросс-телесных видео, таких как те, что собираются с YouTube.

O1-CODER: Новый Подход к Кодированию с Использованием RL и MCTS

Технический отчет представляет O1-CODER, попытку воспроизвести модель o1 OpenAI с акцентом на задачи кодирования. Он интегрирует обучение с подкреплением (RL) и Монте-Карло дерево решений (MCTS) для улучшения способностей мышления модели системы-2. В рамках включает обучение Генератора Тестовых Случаев (TCG) для стандартизированного тестирования кода, используя MCTS для генерации данных кода с процессами рассуждения, и итеративную донастройку модели политики, чтобы первоначально создавать псевдокод, за которым следует генерация полного кода. Отчет также рассматривает возможности и вызовы в развертывании моделей, подобных o1, в реальных приложениях, предлагая переход на парадигму системы-2 и подчеркивая необходимость обновления состояния среды. Обновленный прогресс модели и экспериментальные результаты будут представлены в следующих версиях. Весь исходный код, курируемые наборы данных, а также полученные модели будут раскрыты на https://github.com/ADaM-BJTU/O1-CODER.

Critic-V: Улучшение Мультимодального Рассуждения в Моделях Языка и Зрения

Модели визуально-языкового моделирования (VLMs) продемонстрировали значительные достижения в задачах многомодального размышления. Однако они по-прежнему часто генерируют неточные или неуместные ответы из-за таких проблем, как галлюцинирующее понимание изображений или неосмысленные пути размышления. Чтобы справиться с этими проблемами, мы вводим Critic-V, новую структуру, вдохновленную парадигмой Actor-Critic, для повышения способности размышления VLMs. Эта структура расщепляет процесс размышления и процесс критики, интегрируя два независимых компонента: Reasoner, который генерирует пути размышления на основе визуальных и текстовых входных данных, и Critic, который предоставляет конструктивную критику для уточнения этих путей. В этом подходе Reasoner генерирует ответы на размышления в соответствии с текстовыми подсказками, которые могут итеративно развиваться как политика на основе обратной связи от Critic. Этот процесс взаимодействия теоретически основан на рамках обучения с подкреплением, где Critic предлагает критические замечания на естественном языке вместо скалярных наград, позволяя дать более тонкую обратную связь для повышения способности Reasoner в сложных задачах размышления. Модель Critic обучается с использованием Оптимизации Прямых Предпочтений (DPO), используя набор предпочтений критики, ранжированный по Награде на основе Правил (RBR), для улучшения своих критических возможностей. Результаты оценивания показывают, что структура Critic-V значительно превосходит существующие методы, включая GPT-4V, по 5 из 8 эталонов, особенно в отношении точности и эффективности размышлений. Сочетание динамической текстовой политики для Reasoner и конструктивной обратной связи от оптимизированного по предпочтениям Critic позволяет более надежный и чувствительный к контексту многомодальный процесс размышления. Наш подход предоставляет многообещающее решение для повышения надежности VLMs, улучшая их производительность в реальных приложениях с интенсивным размышлением, таких как автономное вождение и воплощенная интеллектуальность.

Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models

Модели диффузии достигли впечатляющих результатов в генеративных задачах, таких как синтез текста в изображение (T2I) и текст в видео (T2V). Однако достижение точного соответствия текста в генерации T2V остается сложной задачей из-за сложной временной зависимости между кадрами. Существующие подходы на основе обучения с подкреплением (RL) для улучшения текстового соответствия часто требуют дифференцируемых функций вознаграждения или ограничиваются ограниченными подсказками, что ограничивает их масштабируемость и применимость. В этой статье мы предлагаем Free^2Guide, новую систему без градиентов для выравнивания сгенерированных видео с текстовыми подсказками без необходимости дополнительного обучения модели. Используя принципы интегрального управления путем, Free^2Guide приближает руководство для моделей диффузии, используя недифференцируемые функции вознаграждения, что позволяет интегрировать мощные черные ящики большие модели языка и изображения (LVLM) в качестве модели вознаграждения. Кроме того, наша структура поддерживает гибкое объединение нескольких моделей вознаграждения, включая модели на основе изображений большого масштаба, для синергетического улучшения соответствия без значительных вычислительных затрат. Мы демонстрируем, что Free^2Guide значительно улучшает текстовое соответствие в различных измерениях и повышает общее качество сгенерированных видео.

Обзор TÜLU 3: Продвижение границ в области открытых языковых моделей пост-обучения

Дополнительная подготовка языковых моделей применяется для уточнения поведения и открытия новых навыков в широком спектре современных языковых моделей, однако открытые рецепты для применения этих техник отстают от проприетарных. Исходные данные обучения и рецепты для постобучения одновременно являются наиболее важными частями головоломки и частью с наименьшей прозрачностью. Чтобы сократить этот разрыв, мы представляем T\"ULU 3, семейство полностью открытых моделей последнего поколения с постобучением, вместе с данными, кодом и рецептами обучения, что служит всеобъемлющим руководством по современным техникам постобучения. T\"ULU 3, основанный на базовых моделях Llama 3.1, демонстрирует результаты, превосходящие инструктивные версии Llama 3.1, Qwen 2.5, Mistral, а также закрытые модели, такие как GPT-4o-mini и Claude 3.5-Haiku. Алгоритмы обучения для наших моделей включают в себя контролируемую тонкую настройку (SFT), прямую оптимизацию предпочтений (DPO) и новый метод, который мы называем обучением с подтверждаемыми вознаграждениями (RLVR). С T\"ULU 3 мы вводим схему мультизадачной оценки для рецептов постобучения с разработкой и невидимыми оценками, стандартными реализациями бенчмарков и значительной очисткой существующих открытых наборов данных на этих бенчмарках. Мы заканчиваем анализом и обсуждением методов обучения, которые не всегда улучшали производительность. В дополнение к весам модели T\"ULU 3 и демонстрации, мы публикуем полный рецепт - включая наборы данных для различных ключевых навыков, мощный инструментарий для курирования и оценки данных, код обучения и инфраструктуру, и, что наиболее важно, подробный отчет для воспроизведения и дальнейшей адаптации подхода T\"ULU 3 к другим областям.

BALROG: Оценка агентных возможностей LLM и VLM на играх

Крупные языковые модели (LLMs) и модели языка с визуальными элементами (VLMs) обладают обширными знаниями и демонстрируют многообещающие способности к рассуждению; однако, они всё ещё испытывают трудности в эффективной работе в сложных, динамичных средах. Реальные задачи требуют обработки сложных взаимодействий, продвинутого пространственного рассуждения, долгосрочного планирования и непрерывного исследования новых стратегий - областей, в которых у нас нет эффективных методик для комплексной оценки этих возможностей. Чтобы устранить этот пробел, мы представляем BALROG, новую эталонную платформу, разработанную для оценки агентских способностей LLMs и VLMs через разнообразный набор сложных игр. Наш бенчмарк включает в себя ряд существующих сред для обучения с подкреплением с различным уровнем сложности, от задач, которые могут быть решены неспециалистами за секунды, до крайне сложных, которые могут потребовать лет для освоения (например, среда обучения NetHack). Мы разработали детальные метрики для измерения производительности и провели обширную оценку нескольких популярных открытых и закрытых LLMs и VLMs. Наши выводы показывают, что, хотя текущие модели достигают частичного успеха в более простых играх, они значительно отстают в решении более сложных задач. Особенно заметны серьезные недостатки в принятии решений на основе визуальной информации, поскольку модели показывают худшие результаты, когда предоставляются визуальные представления среды. Мы выпускаем BALROG как открытую и удобную для пользователя эталонную платформу, чтобы способствовать дальнейшим исследованиям и разработкам в сообществе агентских систем.

Естественное Языковое Усиление Обучения (NLRL): Введение в новый парадигм

Усиленное обучение (RL) математически формулирует процесс принятия решений с помощью Марковского процесса принятия решений (MDP). С использованием MDP исследователи достигли замечательных прорывов в различных областях, включая игры, робототехнику и языковые модели. В данной статье рассматривается новая возможность — Усиленное обучение на естественном языке (NLRL), путем расширения традиционного MDP на пространство представлений на основе естественного языка. В частности, NLRL инновационно переопределяет принципы RL, включая цели задач, политику, функцию стоимости, уравнение Беллмана и итерацию политики, на их языковые аналоги. С недавними достижениями в области крупных языковых моделей (LLMs), NLRL может быть реализован на практике для достижения улучшения политики и стоимости, аналогичного RL, либо через чистое подсказывание, либо через обучение на основе градиентов. Эксперименты на играх Лабиринт, Прорыв и Крестики-нолики демонстрируют эффективность, производительность и интерпретируемость фреймворка NLRL в различных сценариях использования. Наш код будет опубликован по адресу https://github.com/waterhorse1/Natural-language-RL.

Развитие моделей открытого рассуждения: Взгляд на Marco-o1

В настоящее время OpenAI o1 вызвал всплеск интереса к изучению крупных моделей рассуждения (LRM). Используя этот импульс, Marco-o1 не только сосредотачивается на дисциплинах с стандартными ответами, таких как математика, физика и программирование — которые хорошо подходят для обучения с подкреплением (RL) — но также уделяет больше внимания решениям открытого типа. Мы ставим перед собой задачу ответить на вопрос: "Может ли модель o1 эффективно обобщаться на более широкие области, где отсутствуют четкие стандарты и награды трудно количественно оценить?" Marco-o1 работает на основе тонкой настройки цепочки рассуждений (CoT), поиска по методу Монте-Карло (MCTS), механизмов рефлексии и инновационных стратегий рассуждений — все это оптимизировано для решения сложных задач в реальном мире.

SALSA: Укрепление Адаптации через Обучение с Обратной Связью от Человека

В разработке крупных языковых моделей (LLM) метод обучения с подкреплением от человеческой обратной связи (RLHF) играет ключевую роль в согласовании моделей с человеческими ценностями и предпочтениями. RLHF традиционно опирается на расхождение Куллбэка-Лейблера (KL-дивергенцию) между текущей политикой и замороженной начальной политикой как на эталон, который добавляется в качестве штрафа в алгоритмы оптимизации политик, такие как Proximal Policy Optimization (PPO). Хотя это ограничение предотвращает слишком большое отклонение моделей от начальной точки, оно ограничивает исследование ландшафта вознаграждений, снижая способность модели находить решения более высокого качества. В результате оптимизация политики часто застревает в узком регионе пространства параметров, что приводит к субоптимальному согласованию и производительности. В данной статье представлен SALSA (Soup-based Alignment Learning for Stronger Adaptation) - новый подход, разработанный для преодоления этих ограничений путем создания более гибкого и точно расположенного эталонного модели через усреднение весов двух независимых моделей, обученных на надзорных данных (SFT). Этот "суп" моделей позволяет увеличить отклонение в KL-дивергенции и исследовать перспективные области пространства решений без потери стабильности. Используя эту более надежную эталонную модель, SALSA способствует лучшему исследованию, достигает более высоких наград и улучшает устойчивость модели, обобщающую способность за пределами распределения и производительность. Мы подтверждаем эффективность SALSA через обширные эксперименты на популярных открытых моделях (Llama2-7B, Mistral-7B и Gemma-2B) по различным тестам (MT-Bench, Arena-Hard, UltraFeedback), где она последовательно превосходит PPO, способствуя более глубокому исследованию и достигая превосходного согласования в LLM.

WEB RL: Обучение веб-агентов с использованием LLM через самоэволюционирующее онлайн-обучение с подкреплением

Крупные языковые модели (LLMs) показали выдающиеся возможности в качестве автономных агентов, особенно в задачах, связанных с вебом. Однако существующие веб-агенты на базе LLM сильно зависят от дорогих проприетарных API LLM, в то время как открытые LLM не обладают необходимыми способностями к принятию решений. В данной статье представляется WebRL, самоэволюционирующая онлайн-куррикулумная платформа обучения с подкреплением, разработанная для тренировки высокопроизводительных веб-агентов с использованием открытых LLM. WebRL решает три ключевых проблемы в разработке веб-агентов на базе LLM, включая нехватку тренировочных задач, разреженные сигналы обратной связи и сдвиг распределения политик в онлайн-обучении. В частности, WebRL включает в себя 1) самоэволюционирующийся куррикулум, который генерирует новые задачи из неудачных попыток, 2) надежную модель вознаграждения, контролируемую результатами (ORM), и 3) адаптивные стратегии обучения с подкреплением для обеспечения постоянного прогресса. Мы применили WebRL для преобразования открытых моделей Llama-3.1 и GLM-4 в квалифицированных веб-агентов. На WebArena-Lite, WebRL повысил процент успешных выполнений задач для Llama-3.1-8B с 4.8% до 42.4%, а для GLM-4-9B - с 6.1% до 43%. Эти открытые модели значительно превосходят показатели GPT-4-Turbo (17.6%) и GPT-4o (13.9%) и превосходят предыдущих лидеров среди веб-агентов, обученных на открытых LLM (AutoWebGLM, 18.2%). Наши результаты демонстрируют эффективность WebRL в сближении открытых и проприетарных LLM-веб агентов, открывая путь к более доступным и мощным системам автономного взаимодействия с вебом.

Как язык помогает обучению воплощенных агентов: исследование информативности и разнообразия

В реальных сценариях желательно, чтобы воплощенные агенты имели способность использовать человеческий язык для получения явного или неявного знания для выполнения задач обучения. Несмотря на недавние успехи, большинство предыдущих подходов используют простые низкоуровневые инструкции в качестве языкового ввода, что может не отражать естественное человеческое общение. Неясно, как интегрировать богатое использование языка для облегчения обучения задачам. Для решения этого вопроса в данной статье исследуются различные типы языковых вводов, способствующих обучению воплощенных агентов с использованием методов подкрепления (RL). Более конкретно, мы рассматриваем, как различные уровни информативности языка (т.е., обратная связь по прошлому поведению и будущие указания) и разнообразие (т.е., вариативность языковых выражений) влияют на обучение и вывод агента. Наши эмпирические результаты, основанные на четырех RL-эталонах, показывают, что агенты, обученные с разнообразной и информативной языковой обратной связью, могут достичь улучшенной обобщаемости и быстрой адаптации к новым задачам. Эти выводы подчеркивают ключевую роль использования языка в обучении воплощенных агентов новым задачам в открытом мире. Сайт проекта: https://github.com/sled-group/Teachable_RL