Экосистема BrowserGym для исследований веб-агентов
Экосистема BrowserGym отвечает на растущую необходимость в эффективной оценке и бенчмаркинге веб-агентов, особенно тех, кто использует автоматизацию и большие языковые модели (LLM) для задач веб-взаимодействия. Многие существующие бенчмарки страдают от фрагментации и несогласованных методологий оценки, что затрудняет достижение надежных сравнений и воспроизводимых результатов. BrowserGym стремится решить эту проблему, предоставляя единое, подобное спортзалу окружение с четко определенными пространствами наблюдения и действия, облегчая стандартизированную оценку среди различных бенчмарков. В сочетании с AgentLab, дополнительной структурой, которая помогает в создании, тестировании и анализе агентов, BrowserGym предлагает гибкость для интеграции новых бенчмарков, одновременно обеспечивая последовательную оценку и всестороннее управление экспериментами. Этот стандартизированный подход направлен на сокращение времени и сложности разработки веб-агентов, поддерживая более надежные сравнения и облегчая глубокий анализ поведения агентов, что может привести к более адаптивным и способным агентам, в конечном итоге ускоряя инновации в автоматизации на основе LLM. В качестве подтверждения мы проводим первый крупномасштабный эксперимент с веб-агентами, основанный на нескольких бенчмарках, и сравниваем производительность 6 современных LLM по всем бенчмаркам, в настоящее время доступным в BrowserGym. Среди прочих выводов, наши результаты подчеркивают большое несоответствие между последними моделями OpenAI и Anthropic, при этом Claude-3.5-Sonnet занимает лидирующие позиции почти во всех бенчмарках, кроме задач, связанных с визуализацией, где GPT-4o превосходит. Несмотря на эти достижения, наши результаты подчеркивают, что построение надежных и эффективных веб-агентов остается значительной проблемой из-за присущей сложности реальных веб-сред и ограничений текущих моделей.