A GUVIS: Объединённые агенты с чистым зрением для автономного взаимодействия с графическими интерфейсами

Автоматизация операций с графическими пользовательскими интерфейсами (GUI) представляет собой важную задачу в области взаимодействия человека с компьютером. Несмотря на достижения в этой области, создание автономных агентов для выполнения задач в GUI остаётся сложной задачей из-за разнообразия и сложности визуальных сред. В данной статье мы рассмотрим концепцию A GUVIS, которая представляет собой унифицированную, основанную на чистом зрении архитектуру для автономных агентов GUI, способных работать на различных платформах.

Графические пользовательские интерфейсы (GUI) являются основой взаимодействия человека с компьютером, обеспечивая интуитивно понятный и структурированный способ выполнения задач в различных цифровых средах, таких как веб-сайты, настольные и мобильные устройства. Автоматизация операций в GUI с помощью автономных агентов может значительно повысить производительность, позволяя бесшовное выполнение задач с использованием существующих инструментов, ориентированных на человека. Однако для эффективного выполнения задач в GUI агенту необходимы три основные компетенции: понимание, привязка и планирование с рассуждением.

Проблемы существующих подходов

Существующие методы в основном полагаются на текстовые представления GUI, такие как HTML или деревья доступности. Это приводит к нескольким ограничениям:

Визуальная сложность: GUI по своей природе визуальны, и использование изображений для представления интерфейсов более естественно для человеческого восприятия.
Разнообразие текстовых представлений: Текстовые представления могут значительно различаться на разных платформах, что затрудняет обобщение модели.
Сложность обработки: Текстовые представления часто бывают громоздкими и сложными, что увеличивает время вывода по сравнению с компактными изображениями.

A GUVIS: Объединённая архитектура

A GUVIS предлагает решение этих проблем, представляя унифицированную архитектуру, которая использует наблюдения на основе изображений и привязывает инструкции на естественном языке к визуальным элементам. Это позволяет агентам GUI более эффективно обобщать свои действия на различных платформах. Основные компоненты A GUVIS включают:

Унификация наблюдений и пространств действий: A GUVIS использует чистое зрение для обработки визуальных данных, что позволяет избежать необходимости в понимании различных исходных кодов пользовательского интерфейса.
Стандартизированное пространство действий: Используя стандартные команды PyAutoGUI, A GUVIS обеспечивает универсальную и полную репрезентацию действий, что упрощает обучение и взаимодействие агентов.
Интеграция планирования и рассуждения: A GUVIS включает явное планирование и рассуждение в модель, что позволяет агентам автономно взаимодействовать с комплексными цифровыми средами.

Архитектура и обучение A GUVIS

Формулировка проблемы

A GUVIS моделирует взаимодействие автономного агента GUI с окружающей средой как частично наблюдаемую марковскую решающую задачу (POMDP). Это включает в себя набор возможных состояний, набор действий, которые агент может предпринять, и набор наблюдений, которые агент может получить. Переходы между состояниями и наблюдениями определяются вероятностными функциями, что позволяет агенту принимать обоснованные решения на основе полученных данных.

Объединённая архитектура

A GUVIS использует два основных этапа обучения:

Обучение привязке: На этом этапе агент обучается понимать и взаимодействовать с объектами в одном снимке GUI. Это включает в себя сбор данных, где несколько пар инструкций и действий объединяются в одно изображение, что позволяет модели обрабатывать несколько примеров привязки из одного снимка.
Обучение планированию и рассуждению: На втором этапе агент обучается выполнять многоступенчатые задачи, используя данные о траекториях агентов, которые варьируются по сложности и средам. Это позволяет модели развивать способности к планированию и рассуждению, необходимым для выполнения сложных задач.

Датасеты A GUVIS

Для обучения A GUVIS был собран крупный набор данных, который включает в себя:

Данные привязки: Содержат инструкции на естественном языке и соответствующие визуальные элементы интерфейса.
Данные планирования и рассуждения: Включают высокоуровневые цели и последовательности наблюдений, что позволяет модели генерировать внутренний монолог, который помогает в планировании следующего действия.

Эксперименты и результаты

Для оценки эффективности модели A GUVIS были проведены эксперименты на различных бенчмарках, включая ScreenSpot, Multimodal-Mind2Web и AndroidWorld. Результаты показали, что A GUVIS превосходит предыдущие методы как в оффлайн, так и в реальных онлайн-сценариях.

Оценка привязки GUI

Эксперименты на наборе данных ScreenSpot продемонстрировали, что A GUVIS имеет впечатляющие способности к привязке GUI, достигая высоких результатов как в условиях оригинальных инструкций, так и в условиях самопланирования. Это подтверждает универсальность модели и её способность обрабатывать различные платформы.

Оценка планирования и рассуждения

В рамках экспериментов на Multimodal-Mind2Web и AndroidWorld A GUVIS показал значительное улучшение в планировании и рассуждении. Модель смогла успешно выполнять задачи, требующие сложного анализа и принятия решений, что подтверждает её высокую адаптивность и эффективность.

Онлайн-оценка

В реальных сценариях, таких как Mind2Web-Live, A GUVIS продемонстрировала свою способность автономно выполнять задачи, не полагаясь на закрытые модели. Это стало возможным благодаря интеграции явного планирования и рассуждения, что позволяет модели эффективно взаимодействовать с динамическими цифровыми средами.

Заключение

A GUVIS представляет собой значительный шаг вперёд в области автоматизации взаимодействия с графическими пользовательскими интерфейсами. Используя унифицированный подход, основанный на чистом зрении, и интегрируя планирование и рассуждение, A GUVIS способен автономно выполнять сложные задачи на различных платформах. Открытие всех собранных данных, моделей и рецептов обучения будет способствовать дальнейшим исследованиям в этой захватывающей области.

Таким образом, A GUVIS не только решает существующие проблемы автоматизации GUI, но и открывает новые возможности для развития автономных систем, способных эффективно взаимодействовать с цифровыми средами, что, в свою очередь, может привести к революционным изменениям в области технологий и взаимодействия человека с компьютером.

Статья на arxiv Оригинал pdf reasoning gui generalization

Ай Дайджест