Разработка интеллектуальных агентов для графических интерфейсов: Взгляд на модель ShowUI

В современном мире, где цифровые технологии проникают во все сферы нашей жизни, графические пользовательские интерфейсы (GUI) играют ключевую роль в взаимодействии человека с компьютерными системами. Эти интерфейсы не только облегчают навигацию и управление приложениями, но и предоставляют визуальную информацию, которая часто не доступна в текстовом формате. В этой статье мы рассмотрим инновационный подход к созданию интеллектуальных агентов, способных воспринимать и взаимодействовать с GUI так же, как это делают люди, через модель под названием ShowUI.

Графические пользовательские интерфейсы являются неотъемлемой частью цифрового мира, предоставляя пользователям интуитивно понятные средства для взаимодействия с программным обеспечением. Однако, несмотря на развитие больших языковых моделей (LLM), которые демонстрируют выдающиеся способности в понимании и выполнении сложных языковых инструкций, существует значительный разрыв в их способности воспринимать и интерпретировать визуальные аспекты GUI. Это приводит к ограничениям в автоматизации задач, где визуальное восприятие играет ключевую роль.

Проблемы и вызовы

Разработка агентов, которые могут эффективно работать с GUI, сталкивается с несколькими ключевыми вызовами:

Высокая разрешительность визуального моделирования: GUI-скриншоты часто имеют высокое разрешение, что приводит к длинным последовательностям токенов, требующим значительных вычислительных ресурсов для обработки.
Управление интерлированными потоками видео, языка и действий: Действия в GUI отличаются от текстовых инструкций и могут варьироваться в зависимости от устройства, что усложняет их моделирование.
Разнообразие тренировочных данных: Существует большое количество данных GUI, но их качество и релевантность для обучения моделей неоднородны.

ShowUI: Инновационный подход

ShowUI представляет собой модель, которая объединяет видео, язык и действия в единый поток для эффективного взаимодействия с GUI. Вот ключевые инновации модели:

1. UI-Guided Visual Token Selection

Этот метод позволяет сократить вычислительные затраты, представляя скриншоты как граф, где каждый патч (участок) изображения является узлом. Выявляя избыточные связи между патчами, модель адаптивно выбирает токены для обработки, что уменьшает количество обрабатываемых данных на 33%, ускоряя обучение в 1.4 раза.

2. Interleaved Vision-Language-Action Streaming

ShowUI использует потоковую передачу данных, где действия, визуальная информация и текстовые запросы объединяются в единый поток. Это позволяет эффективно управлять историей визуальных и действующих данных, улучшая навигацию и выполнение задач.

3. Маломасштабные, но высококачественные наборы данных для инструкций

Вместо использования всех доступных данных, ShowUI фокусируется на тщательном отборе и курировании данных, что позволяет создать наборы данных, которые более репрезентативны для обучения модели.

Результаты и применение

ShowUI, как легковесная модель с размером в 2 миллиарда параметров, достигла впечатляющих результатов:

Точность: 75.1% в задачах нулевого шага по скриншотам.
Эффективность: Уменьшение избыточных визуальных токенов на 33% и ускорение обучения на 1.4 раза.

Эксперименты по навигации в различных средах (веб, мобильные устройства и онлайн) показали, что ShowUI превосходит существующие модели в понимании и взаимодействии с GUI, демонстрируя потенциал для дальнейшего развития в области GUI-агентов.

Заключение

ShowUI открывает новые горизонты в разработке интеллектуальных агентов, способных воспринимать и взаимодействовать с графическими интерфейсами на уровне, близком к человеческому. Эта модель не только улучшает продуктивность и эффективность работы с GUI, но и задает новые стандарты в области машинного обучения для визуальных агентов. В будущем, с развитием и дальнейшим усовершенствованием таких моделей, мы можем ожидать значительного прогресса в автоматизации и улучшении пользовательского опыта в цифровом мире.

Статья на arxiv Оригинал pdf vision language token

Ай Дайджест