Рассвет GUI-агентов: Предварительное исследование с использованием Claude 3.5 Computer Use

В недавно опубликованной статье под названием "The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use" исследователи из Show Lab, Национального университета Сингапура, представили первую модель искусственного интеллекта (AI), способную к использованию компьютера через графический интерфейс пользователя (GUI) в публичном бета-тестировании. Эта модель, известная как Claude 3.5 Computer Use, открывает новые горизонты в области автоматизации задач на рабочем столе, предлагая уникальные возможности для взаимодействия с компьютерами.

Автоматизация задач на рабочем столе стала важной областью исследований, стимулируемой потребностью в повышении производительности и доступности для пользователей различных приложений. От навигации по веб-страницам до использования профессионального программного обеспечения и даже видеоигр, пользователи часто сталкиваются с повторяющимися задачами, которые могли бы быть автоматизированы. Хотя крупные языковые модели (LLM) вроде GPT-4 и Qwen-2-VL показали свой потенциал в автоматизации задач через общие взаимодействия с GUI, их возможности все еще далеки от идеала для практического использования в автоматизации рабочего стола.

Обзор модели Claude 3.5 Computer Use

Дизайн модели

Основная задача модели Claude 3.5 Computer Use заключается в выполнении серии действий на рабочем столе в ответ на инструкции пользователя, выраженные на естественном языке. Взаимодействие агента с окружающей средой включает в себя несколько этапов:

Наблюдение за состоянием GUI: Модель наблюдает за GUI исключительно через визуальную информацию, полученную из реального времени скриншотов, без использования метаданных или HTML.
Рассуждение и действие: Используется парадигма рассуждения-действия (Reasoning-acting), где модель наблюдает за окружающей средой перед тем, как принять решение о действии, что обеспечивает соответствие действия текущему состоянию GUI.
Использование инструментов: Модель оснащена тремя инструментами от Anthropic: Computer Tools для управления мышью и клавиатурой, Text Editor Tools для редактирования файлов и Bash Tools для выполнения команд в bash-оболочке.

Пространство действий GUI

Пространство действий модели включает все базовые действия мыши и клавиатуры, такие как движение курсора, клики, ввод текста, комбинации клавиш для горячих клавиш и другие. Каждая операция может быть обозначена синтаксисом action_type(arguments).

Поддержание контекста визуальной истории

Claude 3.5 Computer Use сохраняет обширный контекст скриншотов, накопленных в процессе выполнения задач, что помогает модели принимать информированные решения на основе визуальной истории.

Оценка способностей к использованию компьютера

Настройка системы

Оценка проводилась на платформах Windows и macOS с использованием предложенной платформы Computer Use Out-of-the-Box. Разрешение экрана было установлено на 1366x768 для Windows и 1344x756 для macOS.

Изучение случаев

Исследование включало 20 задач, охватывающих три домена: веб-поиск, рабочий процесс и офисную продуктивность, а также видеоигры. Вот несколько примеров:

Веб-поиск: Поиск и добавление в корзину наушников с активным шумоподавлением (ANC) на Amazon в пределах бюджета $100.
Рабочий процесс: Поиск последних и местных популярных музыкальных треков в Apple Music и добавление их в плейлист.
Офисная продуктивность: Изменение макета документа в Microsoft Word на формат A3 в альбомной ориентации.
Видеоигры: Создание и переименование новой колоды в Hearthstone.

Критическая оценка

Каждый случай был тщательно проанализирован на предмет планирования, выполнения действий и критического отзыва модели. В некоторых случаях модель демонстрировала впечатляющие способности к автоматизации сложных задач, в то время как в других были выявлены ограничения, такие как неправильное планирование или ошибки в выполнении действий.

Обсуждение и выводы

Категоризация ошибок

Ошибки, приводящие к неудаче задач, были классифицированы на три категории:

Ошибки планирования: Когда модель неправильно интерпретирует инструкции или текущее состояние компьютера.
Ошибки действий: Когда модель не может выполнить правильное действие, несмотря на корректное планирование.
Ошибки критики: Когда модель неправильно оценивает результаты своих действий или состояние компьютера.

Будущее GUI-агентов

Для дальнейшего развития GUI-агентов необходимо создать более динамичные и интерактивные среды, отражающие реальные условия использования компьютера. Также важно улучшить механизмы самооценки модели, чтобы она могла более точно определять успешность выполнения задач.

Заключение

Исследование показывает, что хотя модель Claude 3.5 Computer Use и обладает значительным потенциалом для автоматизации задач на рабочем столе, существуют области, требующие улучшения. Предложенная платформа Computer Use Out-of-the-Box может служить основой для дальнейших исследований и разработок в области GUI-агентов, стимулируя создание более совершенных и надежных систем для автоматизации компьютерного использования.

Статья на arxiv Оригинал pdf study api automation

Ай Дайджест