Свежая выжимка ml и AI статей - каждый день
В мире, где технологии искусственного интеллекта (AI) и машинного обучения (ML) стремительно развиваются, большие языковые модели (LLM) становятся не просто инструментами для обработки и генерации текста, но и агентами, способными выполнять сложные задачи в реальном мире. Одним из таких применений является создание веб-агентов, которые могут автономно взаимодействовать с веб-страницами, выполняя задачи, которые ранее требовали человеческого вмешательства. Однако, несмотря на значительные успехи, существующие LLM веб-агенты сталкиваются с несколькими ключевыми проблемами:
Недостаток обучающих задач: В отличие от оффлайн-наборов данных, где агенты могут обучаться на предварительно аннотированных траекториях, онлайн-среды, такие как WebArena, предоставляют ограниченный набор тестовых задач, что затрудняет эффективное обучение агентов.
Редкость и стоимость обратной связи: Оценка успешности выполнения произвольных задач веб-браузинга сложна без специфических функций оценки, а долгосрочные задачи в WebArena часто имеют разреженные сигналы обратной связи, что затрудняет обучение.
Смещение распределения политик в онлайн-обучении: Отсутствие предопределенного обучающего набора задач ведет к необходимости онлайн-исследования, что может вызвать смещение политик агента и, как следствие, катастрофическое забывание и ухудшение производительности.
Для решения этих проблем была разработана инновационная система под названием WEB RL (Web Reinforcement Learning). Это самоэволюционирующая онлайн-система обучения с подкреплением, предназначенная для обучения высокопроизводительных веб-агентов на основе открытых LLM.
WEB RL включает в себя механизм самоэволюционирующего онлайн-курса обучения, который генерирует новые задачи из неудачных попыток выполнения предыдущих задач. Этот подход позволяет агенту постепенно усложнять задачи, адаптируясь к его текущим способностям.
Для оценки успешности выполнения задач введена ORM (Outcome-Supervised Reward Model). Эта модель обучается на траекториях, генерируемых агентом, и предоставляет бинарный сигнал вознаграждения (1 за успех, 0 за неудачу), что помогает агенту понять, насколько успешно он выполняет задачи.
WEB RL использует адаптивные стратегии обучения, которые включают:
WEB RL была применена для преобразования открытых моделей Llama-3.1 и GLM-4 в эффективных веб-агентов. На тестовом наборе WebArena-Lite, WEB RL значительно улучшила успех выполнения задач для Llama-3.1-8B с 4.8% до 42.4% и для GLM-4-9B с 6.1% до 43%. Эти результаты превосходят показатели как закрытых, так и открытых LLM, включая GPT-4-Turbo (17.6%) и GPT-4o (13.9%).
В ходе экспериментов WEB RL показала значительные преимущества:
WEB RL представляет собой значительный шаг вперед в области обучения веб-агентов. Она не только решает ключевые проблемы, связанные с обучением агентов в онлайн-среде, но и предоставляет инструменты для непрерывного улучшения их способностей. Это открывает путь к созданию более доступных и мощных систем автономного взаимодействия с веб-страницами, основанных на открытых LLM. Код, модели и данные WEB RL доступны для общественного использования, что способствует дальнейшему развитию в этой области.