Графические пользовательские интерфейсы (GUI) и их агенты: Обзор современных исследований
Графические интерфейсы пользователей (GUI) на основе крупных базовых моделей стали трансформационным подходом для автоматизации взаимодействия человека с компьютером. Эти агенты автономно взаимодействуют с цифровыми системами или программными приложениями через GUI, эмулируя человеческие действия, такие как щелчки мышью, набор текста и навигация по визуальным элементам на различных платформах. Учитывая растущий интерес и фундаментальную важность агентов GUI, мы предоставляем всеобъемлющий обзор, который классифицирует их контрольные точки, метрики оценки, архитектуры и методы обучения. Мы предлагаем унифицированную структуру, которая описывает их способности к восприятию, рассуждению, планированию и действию. Кроме того, мы выделяем важные открытые вызовы и обсуждаем ключевые направления будущего. Наконец, эта работа служит основой для практиков и исследователей, чтобы получить интуитивное понимание текущего прогресса, техник, контрольных точек и критических открытых проблем, которые необходимо решить.