Пропозер-Агент-Оценщик (PAE): Автономное открытие навыков для интернет-агентов на основе фундамента моделей
Видение широко способного и целенаправленного агента, например, агента для просмотра Интернета в цифровом мире и домашнего гуманоидного робота в физическом мире, быстро продвинулось благодаря способности обобщения основополагающих моделей. Такой универсальный агент должен обладать большим и разнообразным набором навыков, таких как нахождение маршрутов между двумя пунктами назначения и покупка конкретных товаров в Интернете. Если каждый навык необходимо указывать вручную через фиксированный набор аннотированных человеком инструкций, repertoire навыков агента будет обязательно ограничен из-за количества и разнообразия аннотированных человеком инструкций. В этой работе мы решаем эту задачу, предлагая систему Proposer-Agent-Evaluator (PAE), эффективную обучающую систему, которая позволяет агентам на основе основополагающих моделей самостоятельно открывать и практиковать навыки в дикой природе. В центре PAE находится контекстно-осведомленный предложитель задач, который автономно предлагает задачи для практики агента с учетом информации о контексте окружающей среды, такой как демонстрации пользователей или даже просто название самого веб-сайта для агентов просмотра Интернета. Затем политика агента пытается выполнить эти задачи с размышлениями и фактическими опирающимися на реальный мир операциями, а полученные траектории оцениваются автономным оценщиком успеха на основе VLM. Оценка успеха служит сигналом вознаграждения для агента, чтобы уточнить его политики через обучение с подкреплением (RL). Мы валидация PAE на сложной навигации по вебу на основе зрения, используя как реальные, так и саморазмещенные веб-сайты из WebVoyager и WebArena. Насколько нам известно, эта работа представляет собой первую эффективную обучающую систему, которая применяет автономное предложение задач с RL для агентов, обобщающих реальное основание, аннотированное человеком, с производительностью SOTA. Наши открытые контрольные точки и код можно найти на https://yanqval.github.io/PAE/.