Свежая выжимка ml и AI статей - каждый день
Графические пользовательские интерфейсы (GUI) играют ключевую роль в взаимодействии человека с компьютером, позволяя пользователям выполнять задачи в различных цифровых средах. Автоматизация операций GUI с помощью агентов открывает новые возможности для повышения производительности и создания более продвинутых AI-систем, способных обучаться на основе богатых цифровых данных. Тем не менее, разработка таких агентов сталкивается с проблемами, связанными с нехваткой высококачественных данных о многошаговых траекториях, необходимых для эффективного обучения. В традиционных подходах часто требуется дорогостоящая и трудоемкая аннотация человеком, что делает их неустойчивыми в масштабах.
В этой статье мы рассмотрим новую методику, названную AgentTrek, которая предлагает масштабируемый конвейер синтеза данных для генерации высококачественных траекторий веб-агентов, используя веб-учебники. Метод автоматически собирает текст, подобный учебникам, из Интернета, преобразует его в задачи с пошаговыми инструкциями и использует агента на основе визуально-языковой модели (VLM) для симуляции выполнения этих задач в реальной цифровой среде.
Несмотря на недавние достижения в области больших языковых моделей (LLM), производительность агентов GUI остается на низком уровне. Современные LLM в основном разрабатываются и обучаются на наборах данных, оптимизированных для генерации информативных ответов. Их архитектура и парадигмы обучения не предназначены для принятия сложных решений о последовательных действиях, требующих долгосрочного наблюдения и исторического контекста. Это делает необходимым обучение агентов GUI с использованием данных о многошаговых траекториях.
Качественные траектории агентов должны содержать несколько ключевых компонентов: высокоуровневую цель, последовательность взаимосвязанных наблюдений, естественное языковое обоснование и обоснованные действия. Однако такие данные не доступны в Интернете так же легко, как текстовые или изображенческие данные, поскольку они требуют сложного ситуационного обоснования и мультимодальной интерактивности.
Существующие подходы обычно полагаются на аннотацию человеком для сбора таких траекторий, что является дорогостоящим и не масштабируемым. В ответ на эту нехватку данных синтез данных стал важным подходом в разработке AI-систем. Тем не менее, синтез траекторий агентов представляет собой значительные вызовы из-за необходимости интеграции естественно-языковых инструкций, визуальных наблюдений и контекстуальных действий, которые должны быть точно обоснованы в среде GUI.
AgentTrek представляет собой масштабируемый конвейер синтеза данных, специально разработанный для обучения агентов GUI. Конвейер состоит из трех основных этапов:
Сбор учебников: Мы автоматически извлекаем и фильтруем учебные материалы из Интернета, которые описывают задачи и рабочие процессы в веб-средах. Эти учебники затем преобразуются в задачи для агентов с высокоуровневыми целями и подробными пошаговыми инструкциями.
Сбор данных о траекториях через управляемую реплею: Агент VLM взаимодействует с реальной цифровой средой, руководствуясь учебниками, в то время как мы записываем его действия и размышления как данные о траекториях.
Обучение и дообучение моделей на основе данных о реплее: Собранные данные о траекториях используются для обучения и дообучения моделей агентов GUI, которые затем оцениваются на стандартных бенчмарках для агентов, демонстрируя значительные улучшения.
Наши экспериментальные результаты показывают, что обучение моделей агентов GUI с использованием синтезированных траекторий не только улучшает их производительность, но и позволяет им превзойти возможности их первоначальных моделей-учителей.
Первый этап включает в себя извлечение учебников о взаимодействии с вебом из больших наборов данных. Мы применяем эвристические фильтры для создания предварительного набора данных, который затем аннотируется с помощью продвинутой LLM для генерации размеченных образцов, необходимых для обучения классификатора учебников.
Хотя учебники GUI широко доступны в Интернете, они составляют лишь небольшую часть контента, что делает предварительную фильтрацию необходимой для выявления релевантного контента. Мы разработали правило-основной фильтр, используя списки ключевых слов, чтобы отсеять ненужные данные. Этот фильтр достигает высокой точности в выделении полезных учебников.
После предварительной фильтрации мы используем продвинутую LLM, такую как GPT-4, для автоматизированного аннотирования контента. Эта модель способна обрабатывать сложную информацию и выявлять учебный контент, который может быть упущен человеком. Это позволяет эффективно создавать большой размеченный набор данных для обучения в следующих этапах.
Следующий шаг включает в себя использование модели FastText для классификации текстовых сегментов как учебные или неучебные. Мы комбинируем размеченные данные от LLM с образцами, размеченными вручную, чтобы создать мощный классификатор. После классификации мы используем GPT-4 для аннотирования и парафразирования контента, чтобы подготовить его к этапу реплея.
На этом этапе агент VLM использует собранные и отфильтрованные учебники для выполнения задач в веб-среде. Процесс включает в себя наблюдение за реальными веб-страницами, где агент выполняет действия, записывая все свои действия и внутренние размышления. Эти данные формируют основу для создания высококачественных траекторий.
Собранные данные о траекториях включают важные компоненты, такие как информация о задаче, текстовая траектория, наблюдения, промежуточные размышления и последовательности действий. Каждый экземпляр данных содержит метаданные о задаче, включая платформу, описание задачи, инструкции и ожидаемые результаты.
Используя среду BrowserGym, агент выполняет задачи, следуя инструкциям из учебников. Он взаимодействует с реальными веб-сайтами, что позволяет собирать данные о траекториях, которые могут быть использованы для улучшения его производительности. Все действия агента и его внутренние размышления записываются для дальнейшего анализа.
На последнем этапе мы используем собранные данные о траекториях для обучения и дообучения моделей агентов GUI. Мы выбираем визуально-ориентированную архитектуру, которая использует только визуальные наблюдения, что позволяет моделям лучше обрабатывать визуальные элементы интерфейса.
Мы используем данные из AgentTrek для улучшения возможностей моделей в области обоснования и планирования. Модели обучаются на основе собранных данных, что позволяет им эффективно выполнять задачи, требующие сложного взаимодействия с интерфейсами.
Для оценки производительности моделей мы используем несколько бенчмарков, таких как WebArena и ScreenSpot. Эти бенчмарки позволяют нам проверить, насколько эффективно агенты могут завершать задачи в реальных условиях.
Экспериментальные результаты показывают, что агенты, обученные с использованием синтезированных данных из AgentTrek, значительно превосходят модели, обученные на существующих наборах данных. Мы наблюдаем улучшение как в обосновании, так и в планировании, что подчеркивает эффективность нашего подхода.
AgentTrek демонстрирует значительные преимущества по сравнению с традиционными методами сбора данных, такими как аннотация человеком. Наше решение не только более экономично, но и масштабируемо, что делает его подходящим для широкомасштабного обучения агентов GUI.
Учебники, извлеченные из Интернета, играют решающую роль в процессе реплея. Они обеспечивают разнообразие сгенерированных траекторий и значительно улучшают выполнение задач агентами. Наши эксперименты показывают, что наличие подробных инструкций увеличивает эффективность агентов на более чем 230%.
AgentTrek представляет собой инновационный подход к синтезу траекторий агентов, который преодолевает существующие ограничения в сборе данных для обучения агентов GUI. Мы показали, что использование веб-учебников для автоматического создания данных о траекториях не только улучшает производительность агентов, но и значительно снижает затраты на сбор данных.
В будущем мы планируем расширить наш подход, чтобы включить более сложные сценарии взаимодействия и улучшить качество синтезируемых данных. AgentTrek задает новый стандарт для генерации данных для агентов, открывая путь к более автономным и способным цифровым агентам.