Ай Дайджест - категория experiments

Экосистема BrowserGym для исследований веб-агентов

Экосистема BrowserGym отвечает на растущую необходимость в эффективной оценке и бенчмаркинге веб-агентов, особенно тех, кто использует автоматизацию и большие языковые модели (LLM) для задач веб-взаимодействия. Многие существующие бенчмарки страдают от фрагментации и несогласованных методологий оценки, что затрудняет достижение надежных сравнений и воспроизводимых результатов. BrowserGym стремится решить эту проблему, предоставляя единое, подобное спортзалу окружение с четко определенными пространствами наблюдения и действия, облегчая стандартизированную оценку среди различных бенчмарков. В сочетании с AgentLab, дополнительной структурой, которая помогает в создании, тестировании и анализе агентов, BrowserGym предлагает гибкость для интеграции новых бенчмарков, одновременно обеспечивая последовательную оценку и всестороннее управление экспериментами. Этот стандартизированный подход направлен на сокращение времени и сложности разработки веб-агентов, поддерживая более надежные сравнения и облегчая глубокий анализ поведения агентов, что может привести к более адаптивным и способным агентам, в конечном итоге ускоряя инновации в автоматизации на основе LLM. В качестве подтверждения мы проводим первый крупномасштабный эксперимент с веб-агентами, основанный на нескольких бенчмарках, и сравниваем производительность 6 современных LLM по всем бенчмаркам, в настоящее время доступным в BrowserGym. Среди прочих выводов, наши результаты подчеркивают большое несоответствие между последними моделями OpenAI и Anthropic, при этом Claude-3.5-Sonnet занимает лидирующие позиции почти во всех бенчмарках, кроме задач, связанных с визуализацией, где GPT-4o превосходит. Несмотря на эти достижения, наши результаты подчеркивают, что построение надежных и эффективных веб-агентов остается значительной проблемой из-за присущей сложности реальных веб-сред и ограничений текущих моделей.

2024-12-12analysis models automation

К универсальному пониманию футбольных видео

Как всемирно известный вид спорта, футбольный спорт привлек широкий интерес со стороны фанатов со всего мира. Цель данной работы — разработка комплексной мультимодальной структуры для понимания футбольных видео. В частности, мы делаем следующие вклады в эту работу: (i) мы представляем SoccerReplay-1988, крупнейший на сегодняшний день мультимодальный футбольный набор данных, который включает видео и подробные аннотации из 1,988 полных матчей с автоматизированным процессом аннотирования; (ii) мы представляем первую визуально-языковую базовую модель в области футбола, MatchVision, которая использует спatiotemporal информацию по футбольным видео и превосходит по различным последующим задачам; (iii) мы проводим обширные эксперименты и исследования абляции по классификации событий, генерации комментариев и многопозиционному распознаванию нарушений. MatchVision демонстрирует передовую производительность по всем этим аспектам, значительно превосходя существующие модели, что подчеркивает превосходство наших предложенных данных и модели. Мы уверены, что эта работа предложит стандартную парадигму для исследований в области понимания спорта.

2024-12-06classification model annotation