Свежая выжимка ml и AI статей - каждый день
В недавно опубликованной статье под названием "The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use" исследователи из Show Lab, Национального университета Сингапура, представили первую модель искусственного интеллекта (AI), способную к использованию компьютера через графический интерфейс пользователя (GUI) в публичном бета-тестировании. Эта модель, известная как Claude 3.5 Computer Use, открывает новые горизонты в области автоматизации задач на рабочем столе, предлагая уникальные возможности для взаимодействия с компьютерами.
Автоматизация задач на рабочем столе стала важной областью исследований, стимулируемой потребностью в повышении производительности и доступности для пользователей различных приложений. От навигации по веб-страницам до использования профессионального программного обеспечения и даже видеоигр, пользователи часто сталкиваются с повторяющимися задачами, которые могли бы быть автоматизированы. Хотя крупные языковые модели (LLM) вроде GPT-4 и Qwen-2-VL показали свой потенциал в автоматизации задач через общие взаимодействия с GUI, их возможности все еще далеки от идеала для практического использования в автоматизации рабочего стола.
Основная задача модели Claude 3.5 Computer Use заключается в выполнении серии действий на рабочем столе в ответ на инструкции пользователя, выраженные на естественном языке. Взаимодействие агента с окружающей средой включает в себя несколько этапов:
Пространство действий модели включает все базовые действия мыши и клавиатуры, такие как движение курсора, клики, ввод текста, комбинации клавиш для горячих клавиш и другие. Каждая операция может быть обозначена синтаксисом action_type(arguments)
.
Claude 3.5 Computer Use сохраняет обширный контекст скриншотов, накопленных в процессе выполнения задач, что помогает модели принимать информированные решения на основе визуальной истории.
Оценка проводилась на платформах Windows и macOS с использованием предложенной платформы Computer Use Out-of-the-Box. Разрешение экрана было установлено на 1366x768 для Windows и 1344x756 для macOS.
Исследование включало 20 задач, охватывающих три домена: веб-поиск, рабочий процесс и офисную продуктивность, а также видеоигры. Вот несколько примеров:
Каждый случай был тщательно проанализирован на предмет планирования, выполнения действий и критического отзыва модели. В некоторых случаях модель демонстрировала впечатляющие способности к автоматизации сложных задач, в то время как в других были выявлены ограничения, такие как неправильное планирование или ошибки в выполнении действий.
Ошибки, приводящие к неудаче задач, были классифицированы на три категории:
Для дальнейшего развития GUI-агентов необходимо создать более динамичные и интерактивные среды, отражающие реальные условия использования компьютера. Также важно улучшить механизмы самооценки модели, чтобы она могла более точно определять успешность выполнения задач.
Исследование показывает, что хотя модель Claude 3.5 Computer Use и обладает значительным потенциалом для автоматизации задач на рабочем столе, существуют области, требующие улучшения. Предложенная платформа Computer Use Out-of-the-Box может служить основой для дальнейших исследований и разработок в области GUI-агентов, стимулируя создание более совершенных и надежных систем для автоматизации компьютерного использования.