AgentTrek: Синтез траекторий агентов через руководство с использованием веб-учебников

Графические пользовательские интерфейсы (GUI) играют ключевую роль в взаимодействии человека с компьютером, позволяя пользователям выполнять задачи в различных цифровых средах. Автоматизация операций GUI с помощью агентов открывает новые возможности для повышения производительности и создания более продвинутых AI-систем, способных обучаться на основе богатых цифровых данных. Тем не менее, разработка таких агентов сталкивается с проблемами, связанными с нехваткой высококачественных данных о многошаговых траекториях, необходимых для эффективного обучения. В традиционных подходах часто требуется дорогостоящая и трудоемкая аннотация человеком, что делает их неустойчивыми в масштабах.

В этой статье мы рассмотрим новую методику, названную AgentTrek, которая предлагает масштабируемый конвейер синтеза данных для генерации высококачественных траекторий веб-агентов, используя веб-учебники. Метод автоматически собирает текст, подобный учебникам, из Интернета, преобразует его в задачи с пошаговыми инструкциями и использует агента на основе визуально-языковой модели (VLM) для симуляции выполнения этих задач в реальной цифровой среде.

Проблема

Несмотря на недавние достижения в области больших языковых моделей (LLM), производительность агентов GUI остается на низком уровне. Современные LLM в основном разрабатываются и обучаются на наборах данных, оптимизированных для генерации информативных ответов. Их архитектура и парадигмы обучения не предназначены для принятия сложных решений о последовательных действиях, требующих долгосрочного наблюдения и исторического контекста. Это делает необходимым обучение агентов GUI с использованием данных о многошаговых траекториях.

Качественные траектории агентов должны содержать несколько ключевых компонентов: высокоуровневую цель, последовательность взаимосвязанных наблюдений, естественное языковое обоснование и обоснованные действия. Однако такие данные не доступны в Интернете так же легко, как текстовые или изображенческие данные, поскольку они требуют сложного ситуационного обоснования и мультимодальной интерактивности.

Существующие подходы обычно полагаются на аннотацию человеком для сбора таких траекторий, что является дорогостоящим и не масштабируемым. В ответ на эту нехватку данных синтез данных стал важным подходом в разработке AI-систем. Тем не менее, синтез траекторий агентов представляет собой значительные вызовы из-за необходимости интеграции естественно-языковых инструкций, визуальных наблюдений и контекстуальных действий, которые должны быть точно обоснованы в среде GUI.

AgentTrek: Обзор

AgentTrek представляет собой масштабируемый конвейер синтеза данных, специально разработанный для обучения агентов GUI. Конвейер состоит из трех основных этапов:

Сбор учебников: Мы автоматически извлекаем и фильтруем учебные материалы из Интернета, которые описывают задачи и рабочие процессы в веб-средах. Эти учебники затем преобразуются в задачи для агентов с высокоуровневыми целями и подробными пошаговыми инструкциями.
Сбор данных о траекториях через управляемую реплею: Агент VLM взаимодействует с реальной цифровой средой, руководствуясь учебниками, в то время как мы записываем его действия и размышления как данные о траекториях.
Обучение и дообучение моделей на основе данных о реплее: Собранные данные о траекториях используются для обучения и дообучения моделей агентов GUI, которые затем оцениваются на стандартных бенчмарках для агентов, демонстрируя значительные улучшения.

Наши экспериментальные результаты показывают, что обучение моделей агентов GUI с использованием синтезированных траекторий не только улучшает их производительность, но и позволяет им превзойти возможности их первоначальных моделей-учителей.

Этап 1: Автоматический сбор учебников

Первый этап включает в себя извлечение учебников о взаимодействии с вебом из больших наборов данных. Мы применяем эвристические фильтры для создания предварительного набора данных, который затем аннотируется с помощью продвинутой LLM для генерации размеченных образцов, необходимых для обучения классификатора учебников.

Префильтрация

Хотя учебники GUI широко доступны в Интернете, они составляют лишь небольшую часть контента, что делает предварительную фильтрацию необходимой для выявления релевантного контента. Мы разработали правило-основной фильтр, используя списки ключевых слов, чтобы отсеять ненужные данные. Этот фильтр достигает высокой точности в выделении полезных учебников.

Автоматизированное аннотирование

После предварительной фильтрации мы используем продвинутую LLM, такую как GPT-4, для автоматизированного аннотирования контента. Эта модель способна обрабатывать сложную информацию и выявлять учебный контент, который может быть упущен человеком. Это позволяет эффективно создавать большой размеченный набор данных для обучения в следующих этапах.

Классификация и парафразирование

Следующий шаг включает в себя использование модели FastText для классификации текстовых сегментов как учебные или неучебные. Мы комбинируем размеченные данные от LLM с образцами, размеченными вручную, чтобы создать мощный классификатор. После классификации мы используем GPT-4 для аннотирования и парафразирования контента, чтобы подготовить его к этапу реплея.

Этап 2: Сбор данных о траекториях через управляемую реплею

На этом этапе агент VLM использует собранные и отфильтрованные учебники для выполнения задач в веб-среде. Процесс включает в себя наблюдение за реальными веб-страницами, где агент выполняет действия, записывая все свои действия и внутренние размышления. Эти данные формируют основу для создания высококачественных траекторий.

Определение данных о траекториях

Собранные данные о траекториях включают важные компоненты, такие как информация о задаче, текстовая траектория, наблюдения, промежуточные размышления и последовательности действий. Каждый экземпляр данных содержит метаданные о задаче, включая платформу, описание задачи, инструкции и ожидаемые результаты.

Управляемая реплея

Используя среду BrowserGym, агент выполняет задачи, следуя инструкциям из учебников. Он взаимодействует с реальными веб-сайтами, что позволяет собирать данные о траекториях, которые могут быть использованы для улучшения его производительности. Все действия агента и его внутренние размышления записываются для дальнейшего анализа.

Этап 3: Обучение и дообучение модели

На последнем этапе мы используем собранные данные о траекториях для обучения и дообучения моделей агентов GUI. Мы выбираем визуально-ориентированную архитектуру, которая использует только визуальные наблюдения, что позволяет моделям лучше обрабатывать визуальные элементы интерфейса.

Обучение модели

Мы используем данные из AgentTrek для улучшения возможностей моделей в области обоснования и планирования. Модели обучаются на основе собранных данных, что позволяет им эффективно выполнять задачи, требующие сложного взаимодействия с интерфейсами.

Оценка производительности

Для оценки производительности моделей мы используем несколько бенчмарков, таких как WebArena и ScreenSpot. Эти бенчмарки позволяют нам проверить, насколько эффективно агенты могут завершать задачи в реальных условиях.

Результаты и анализ

Экспериментальные результаты показывают, что агенты, обученные с использованием синтезированных данных из AgentTrek, значительно превосходят модели, обученные на существующих наборах данных. Мы наблюдаем улучшение как в обосновании, так и в планировании, что подчеркивает эффективность нашего подхода.

Сравнение с существующими методами

AgentTrek демонстрирует значительные преимущества по сравнению с традиционными методами сбора данных, такими как аннотация человеком. Наше решение не только более экономично, но и масштабируемо, что делает его подходящим для широкомасштабного обучения агентов GUI.

Важность учебников

Учебники, извлеченные из Интернета, играют решающую роль в процессе реплея. Они обеспечивают разнообразие сгенерированных траекторий и значительно улучшают выполнение задач агентами. Наши эксперименты показывают, что наличие подробных инструкций увеличивает эффективность агентов на более чем 230%.

Заключение

AgentTrek представляет собой инновационный подход к синтезу траекторий агентов, который преодолевает существующие ограничения в сборе данных для обучения агентов GUI. Мы показали, что использование веб-учебников для автоматического создания данных о траекториях не только улучшает производительность агентов, но и значительно снижает затраты на сбор данных.

В будущем мы планируем расширить наш подход, чтобы включить более сложные сценарии взаимодействия и улучшить качество синтезируемых данных. AgentTrek задает новый стандарт для генерации данных для агентов, открывая путь к более автономным и способным цифровым агентам.

Статья на arxiv Оригинал pdf agents gui evaluation

Ай Дайджест