OS-Atlas: Фундаментальная модель действий для универсальных GUI-агентов

В современном мире, где цифровые технологии становятся все более интегрированными в нашу повседневную жизнь, идея создания автономных агентов, способных выполнять задачи в графических пользовательских интерфейсах (GUI), становится все более реальной и актуальной. Эти агенты, подобно JARVIS из "Железного Человека", могут автоматизировать рутинные задачи, делая нашу жизнь удобнее и эффективнее. Однако, несмотря на прогресс в этой области, существующие решения, основанные на коммерческих моделях Vision-Language (VLMs), таких как GPT-4o и GeminiPro-Vision, сталкиваются с рядом ограничений, особенно в области GUI grounding и обработки Out-Of-Distribution (OOD) сценариев. В ответ на эти вызовы была разработана OS-Atlas — фундаментальная модель действий, предназначенная для улучшения работы GUI-агентов.

С появлением крупных языковых моделей (LLMs) и их интеграцией в различные цифровые платформы, идея создания агентов, которые могут взаимодействовать с операционными системами и приложениями, становится все более реалистичной. Однако, большинство текущих агентов опираются на текстовые описания окружения, что может быть неэффективно из-за длинных, шумных или трудно доступных данных. Более новые исследования исследуют использование VLMs для создания GUI-агентов, которые могут выполнять сложные задачи, анализируя визуальную информацию на экране.

Основные проблемы

Отсутствие специализированного обучения на GUI-скриншотах: Большинство VLMs не обучены на изображениях GUI, что ограничивает их способность точно распознавать элементы интерфейса.
Недостаток данных: Существующие наборы данных часто ограничены по объему и разнообразию, особенно когда речь идет о различных платформах (Windows, MacOS, Linux, Android, iOS).
Несоответствие в наименовании действий: Разные платформы используют разные термины для обозначения одних и тех же действий, что создает путаницу при обучении модели.

OS-Atlas: Обзор

OS-Atlas представляет собой инновационный подход к решению этих проблем, предлагая:

Синтез данных для GUI grounding: Разработан инструментарий для автоматического создания данных, охватывающих множество платформ.
Большой корпус данных: OS-Atlas включает в себя более 13 миллионов элементов GUI, собранных с различных платформ.
Модель действия с унифицированным пространством действий: Введение унифицированного пространства действий для разрешения конфликтов в наименовании действий.

Три режима работы

OS-Atlas может работать в трех различных режимах:

Режим Grounding: Модель предсказывает координаты элементов на основе инструкций пользователя и может интегрироваться с планировщиком для создания полноценного агента.
Режим Action: Модель функционирует независимо, решая задачи на уровне шагов для различных платформ и приложений, даже в OOD сценариях.
Режим Agent: Модель проходит дополнительное обучение для выполнения специфических задач.

Сбор данных

Инструментарий для сбора данных

Для обеспечения эффективности OS-Atlas был разработан инструментарий для синтеза данных GUI grounding. Этот инструментарий позволяет автоматически собирать данные с различных платформ, включая Windows, MacOS, Linux, Android и веб.

Собранные данные

Веб: Использовались 4 миллиона веб-страниц из FineWeb для извлечения видимых кликабельных элементов, таких как кнопки, полосы прокрутки, поля поиска и гиперссылки.
Десктоп и мобильные устройства: Использовались симуляционные среды и физические машины для сбора скриншотов с различных операционных систем, что позволило получить данные, недоступные в предыдущих исследованиях.

Аннотация инструкций

Для улучшения разнообразия и качества данных, использовались VLMs, такие как GPT-4o, для аннотации траекторий действий, преобразуя их в инструкции для задач.

Унифицированное пространство действий

Чтобы решить проблему конфликтов в наименовании действий, была введена концепция унифицированного пространства действий. Это позволяет стандартизировать действия через все платформы, упрощая обучение и улучшая обобщение модели.

Базовые действия

Click: Клик по указанной позиции.
Type: Ввод текста в указанное поле.
Scroll: Прокрутка в указанном направлении.

Пользовательские действия

Эти действия уникальны для каждой платформы и могут быть добавлены пользователями для поддержки новых, невиданных ранее задач.

Эксперименты и результаты

Оценка GUI grounding

OS-Atlas-Base показала значительное улучшение по сравнению с предыдущими моделями на различных платформах, достигая лучших результатов на бенчмарках, таких как ScreenSpot и его обновленной версии ScreenSpot-V2.

Оценка агентских задач

В режиме Action и Agent OS-Atlas демонстрирует превосходство в выполнении задач на различных платформах, подтверждая свою эффективность в OOD сценариях и после дополнительного обучения.

Анализ

Анализ показал, что масштабирование данных для GUI grounding и использование унифицированного пространства действий значительно улучшают производительность модели, особенно в условиях OOD.

Заключение

OS-Atlas представляет собой значительный шаг вперед в разработке GUI-агентов, предоставляя открытую альтернативу коммерческим VLMs для будущих исследований и разработок в этой области. С её помощью можно не только улучшить существующие системы, но и создать новые, более адаптивные и эффективные агенты, способные работать в реальных условиях.

Статья на arxiv Оригинал pdf corpus ood training

Ай Дайджест