Экосистема BrowserGym для исследований веб-агентов

В последние годы наблюдается значительный прогресс в области автоматизации веб-задач, особенно с использованием мощных моделей, таких как большие языковые модели (LLM). В связи с этим возникла необходимость в стандартизированных и эффективных методах оценки и бенчмаркинга веб-агентов. В этой статье мы рассмотрим экосистему BrowserGym, которая направлена на решение этих проблем.

С развитием LLM и моделей на основе языка и изображения (VLM) наблюдается революция в области создания разговорных помощников (чат-ботов). Эти модели теперь могут выполнять действия в веб-браузере от имени пользователя, манипулируя графическим интерфейсом. Это открывает новые возможности для автоматизации рутинных задач, таких как заполнение форм, поиск на e-commerce сайтах и синхронизация календарей. Автономные веб-ассистенты могут значительно повысить продуктивность пользователей и улучшить доступность для людей с ограниченными возможностями.

Однако существует проблема фрагментации в области бенчмаркинга веб-агентов. Множество существующих бенчмарков предлагают различные методы оценки, что затрудняет сравнение и воспроизводимость результатов. BrowserGym предлагает унифицированную среду, которая включает в себя стандартизированные пространства наблюдений и действий, что позволяет проводить сравнения между различными агентами на одном уровне.

Цели BrowserGym

Основные цели BrowserGym заключаются в следующем:

Проектирование новых веб-агентов и их простая оценка на множестве существующих бенчмарков.
Создание новых бенчмарков и оценка существующих веб-агентов на них.
Сравнение различных моделей (LLM/VLM) в их способности решать задачи веб-агентов.

Эти цели направлены на упрощение процесса разработки веб-агентов и улучшение качества их оценки.

Архитектура BrowserGym

BrowserGym построен на основе стандартного API Gym от OpenAI и реализует взаимодействие между агентами и веб-браузером. Взаимодействие осуществляется через частично наблюдаемую марковскую модель принятия решений (POMDP), где агент получает наблюдения и вознаграждения от среды.

Пространства наблюдений и действий

BrowserGym предоставляет обширное пространство наблюдений, включая цель задачи, историю чата, список открытых вкладок и содержимое текущей страницы. Это позволяет агентам принимать более обоснованные решения на основе контекста.

Кроме того, экосистема поддерживает множество действий, которые могут выполнять агенты, такие как клик, ввод текста и навигация по страницам. Эти действия могут быть реализованы как в виде высокоуровневых команд, так и в виде низкоуровневого кода на Python, что дает разработчикам гибкость в реализации своих решений.

Стандартизация бенчмарков

BrowserGym поддерживает интеграцию с несколькими популярными бенчмарками, такими как MiniWoB, WebArena и AssistantBench. Все они доступны через единый интерфейс, что упрощает процесс оценки и сравнения различных агентов. Это позволяет избежать проблем, связанных с разрозненными реализациями и различиями в методах оценки.

Инструменты для разработки агентов

В дополнение к BrowserGym, экосистема включает в себя AgentLab, набор инструментов для создания и тестирования веб-агентов. Он предлагает возможности для параллельного запуска экспериментов, анализа поведения агентов и управления экспериментами.

Параллельное тестирование

AgentLab позволяет проводить параллельные эксперименты, что особенно важно при оценке большого количества агентов на множестве бенчмарков. Это значительно сокращает время, необходимое для получения результатов, и позволяет более эффективно использовать вычислительные ресурсы.

Анализ поведения

AgentXRay, инструмент в рамках AgentLab, предоставляет интерфейс для глубокого анализа поведения агентов на различных задачах. Это позволяет исследователям визуализировать процесс принятия решений агентами и выявлять области, требующие улучшения.

Эксперименты с веб-агентами

Для демонстрации возможностей BrowserGym была проведена первая крупномасштабная оценка производительности шести современных моделей LLM на всех доступных бенчмарках. Результаты показали значительные различия в производительности между моделями. Например, модель Claude-3.5-Sonnet продемонстрировала наилучшие результаты на большинстве бенчмарков, в то время как GPT-4o показал лучшие результаты на задачах, связанных с изображениями.

Результаты эксперимента

В ходе эксперимента были получены следующие результаты:

Claude-3.5-Sonnet достигла уровня успешности 39.1% на бенчмарке WorkArena L2.
GPT-4o показал 8.5% на том же бенчмарке.
Llama-3.1 продемонстрировала конкурентоспособные результаты по сравнению с закрытыми моделями.

Эти результаты подчеркивают необходимость дальнейших исследований в области разработки более устойчивых и эффективных веб-агентов.

Заключение

Экосистема BrowserGym представляет собой важный шаг вперед в стандартизации исследований веб-агентов. Она предлагает унифицированную платформу для оценки и разработки агентов, что способствует более надежным и воспроизводимым результатам. С помощью инструментов, таких как AgentLab и AgentXRay, исследователи могут более эффективно разрабатывать и тестировать свои модели.

Поскольку область веб-агентов продолжает развиваться, внедрение таких экосистем, как BrowserGym, будет способствовать ускорению инноваций в области автоматизации, основанной на LLM. В будущем необходимо будет сосредоточиться на улучшении механизмов безопасности и разработке более адаптивных агентов, способных эффективно взаимодействовать с динамическими веб-средами.

Статья на arxiv Оригинал pdf evaluation models experiments

Ай Дайджест