WEB RL: Обучение веб-агентов с использованием LLM через самоэволюционирующее онлайн-обучение с подкреплением

В мире, где технологии искусственного интеллекта (AI) и машинного обучения (ML) стремительно развиваются, большие языковые модели (LLM) становятся не просто инструментами для обработки и генерации текста, но и агентами, способными выполнять сложные задачи в реальном мире. Одним из таких применений является создание веб-агентов, которые могут автономно взаимодействовать с веб-страницами, выполняя задачи, которые ранее требовали человеческого вмешательства. Однако, несмотря на значительные успехи, существующие LLM веб-агенты сталкиваются с несколькими ключевыми проблемами:

Недостаток обучающих задач: В отличие от оффлайн-наборов данных, где агенты могут обучаться на предварительно аннотированных траекториях, онлайн-среды, такие как WebArena, предоставляют ограниченный набор тестовых задач, что затрудняет эффективное обучение агентов.
Редкость и стоимость обратной связи: Оценка успешности выполнения произвольных задач веб-браузинга сложна без специфических функций оценки, а долгосрочные задачи в WebArena часто имеют разреженные сигналы обратной связи, что затрудняет обучение.
Смещение распределения политик в онлайн-обучении: Отсутствие предопределенного обучающего набора задач ведет к необходимости онлайн-исследования, что может вызвать смещение политик агента и, как следствие, катастрофическое забывание и ухудшение производительности.

Для решения этих проблем была разработана инновационная система под названием WEB RL (Web Reinforcement Learning). Это самоэволюционирующая онлайн-система обучения с подкреплением, предназначенная для обучения высокопроизводительных веб-агентов на основе открытых LLM.

WEB RL: Система и её компоненты

Самоэволюционирующий онлайн-курс обучения

WEB RL включает в себя механизм самоэволюционирующего онлайн-курса обучения, который генерирует новые задачи из неудачных попыток выполнения предыдущих задач. Этот подход позволяет агенту постепенно усложнять задачи, адаптируясь к его текущим способностям.

Модель вознаграждения на основе исхода (ORM)

Для оценки успешности выполнения задач введена ORM (Outcome-Supervised Reward Model). Эта модель обучается на траекториях, генерируемых агентом, и предоставляет бинарный сигнал вознаграждения (1 за успех, 0 за неудачу), что помогает агенту понять, насколько успешно он выполняет задачи.

Адаптивные стратегии обучения с подкреплением

WEB RL использует адаптивные стратегии обучения, которые включают:

KL-дивергенцию между политиками для контроля за изменениями в политике агента, предотвращая катастрофическое забывание.
Буфер повторного воспроизведения опыта с фильтрацией по уверенности актера, чтобы агент мог повторно использовать полезные опыты из прошлого, избегая переобучения на уже освоенном материале.

Применение WEB RL

WEB RL была применена для преобразования открытых моделей Llama-3.1 и GLM-4 в эффективных веб-агентов. На тестовом наборе WebArena-Lite, WEB RL значительно улучшила успех выполнения задач для Llama-3.1-8B с 4.8% до 42.4% и для GLM-4-9B с 6.1% до 43%. Эти результаты превосходят показатели как закрытых, так и открытых LLM, включая GPT-4-Turbo (17.6%) и GPT-4o (13.9%).

Эксперименты и результаты

В ходе экспериментов WEB RL показала значительные преимущества:

Улучшение производительности: WEB RL обеспечила существенное улучшение успеха выполнения задач по сравнению с базовыми методами, такими как SFT, Filtered BC, AWR и DigiRL.
Скалирование: WEB RL успешно применялась к более крупным моделям, как Llama3.1-70B, достигая 49.1% успеха, что подтверждает её масштабируемость.
Анализ ошибок: WEB RL значительно снизила частоту ошибок типа "Застрял на полпути", что указывает на её способность к более эффективному принятию решений.

Заключение

WEB RL представляет собой значительный шаг вперед в области обучения веб-агентов. Она не только решает ключевые проблемы, связанные с обучением агентов в онлайн-среде, но и предоставляет инструменты для непрерывного улучшения их способностей. Это открывает путь к созданию более доступных и мощных систем автономного взаимодействия с веб-страницами, основанных на открытых LLM. Код, модели и данные WEB RL доступны для общественного использования, что способствует дальнейшему развитию в этой области.

Статья на arxiv Оригинал pdf curriculum agents learning

Ай Дайджест