Ай Дайджест - категория curriculum

WEB RL: Обучение веб-агентов с использованием LLM через самоэволюционирующее онлайн-обучение с подкреплением

Крупные языковые модели (LLMs) показали выдающиеся возможности в качестве автономных агентов, особенно в задачах, связанных с вебом. Однако существующие веб-агенты на базе LLM сильно зависят от дорогих проприетарных API LLM, в то время как открытые LLM не обладают необходимыми способностями к принятию решений. В данной статье представляется WebRL, самоэволюционирующая онлайн-куррикулумная платформа обучения с подкреплением, разработанная для тренировки высокопроизводительных веб-агентов с использованием открытых LLM. WebRL решает три ключевых проблемы в разработке веб-агентов на базе LLM, включая нехватку тренировочных задач, разреженные сигналы обратной связи и сдвиг распределения политик в онлайн-обучении. В частности, WebRL включает в себя 1) самоэволюционирующийся куррикулум, который генерирует новые задачи из неудачных попыток, 2) надежную модель вознаграждения, контролируемую результатами (ORM), и 3) адаптивные стратегии обучения с подкреплением для обеспечения постоянного прогресса. Мы применили WebRL для преобразования открытых моделей Llama-3.1 и GLM-4 в квалифицированных веб-агентов. На WebArena-Lite, WebRL повысил процент успешных выполнений задач для Llama-3.1-8B с 4.8% до 42.4%, а для GLM-4-9B - с 6.1% до 43%. Эти открытые модели значительно превосходят показатели GPT-4-Turbo (17.6%) и GPT-4o (13.9%) и превосходят предыдущих лидеров среди веб-агентов, обученных на открытых LLM (AutoWebGLM, 18.2%). Наши результаты демонстрируют эффективность WebRL в сближении открытых и проприетарных LLM-веб агентов, открывая путь к более доступным и мощным системам автономного взаимодействия с вебом.

2024-11-05performance agents learning