Обзор исследования AndroidLab: Обучение и систематическая оценка автономных агентов для Android
В последние годы автономные агенты становятся все более значимыми для взаимодействия с реальным миром, особенно в контексте мобильных операционных систем, таких как Android. Несмотря на значительные достижения в области больших языковых моделей (LLM) и моделей с многомодальным вводом (LMM), существующие методы обучения и оценки Android-агентов страдают от недостатка систематического подхода, особенно в сравнении открытых и закрытых моделей. В данной статье мы рассмотрим исследование, представленное в работе "AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents", которое предлагает новую рамку для оценки и обучения Android-агентов.
AndroidLab: Обзор
AndroidLab представляет собой новую платформу, предназначенную для систематической оценки и обучения Android-агентов. Она включает в себя:
- Операционную среду с различными модальностями, пространством действий и воспроизводимым бенчмарком.
- Поддержку LLM и LMM в одинаковом пространстве действий.
- Бенчмарк AndroidLab, который включает предопределенные виртуальные устройства Android и 138 задач на девяти приложениях.
Операционная среда
Пространство действий
AndroidLab определяет базовые операции для взаимодействия с Android-устройством:
- Tap (кликнуть)
- Swipe (провести)
- Type (ввод текста)
- Long Press (долгий клик)
- Press Key (нажатие клавиш)
- Finish (завершение)
Режимы работы
AndroidLab предлагает два основных режима работы:
- XML-режим: для текстовых моделей (LLM), где агент получает информацию о экране в виде сжатого XML.
- SoM-режим (Set-of-Mark): для мультимодальных моделей (LMM), где каждый кликабельный или фокусируемый элемент на экране помечается числом, и агент выбирает элемент по его номеру.
Для каждого из этих режимов также реализованы два дополнительных метода:
- ReAct: позволяет модели думать пошагово и выводить свои рассуждения перед выполнением действий.
- SeeAct: разделяет процесс рассуждения и выбор элемента, требуя от модели сначала описать желаемое действие, а затем выполнить его.
Бенчмарк AndroidLab
Задачи
Бенчмарк включает 138 задач, разделенных на два типа:
- Операционные задачи: агент должен выполнить серию действий для достижения цели.
- Запросные задачи: агент должен ответить на вопросы, основываясь на информации из телефона.
Метрики
Для оценки эффективности агентов используются следующие метрики:
- Success Rate (SR): процент успешно выполненных задач.
- Sub-Goal Success Rate (Sub-SR): процент успешно выполненных подцелей.
- Reversed Redundancy Ratio (RRR): показывает эффективность действий агента по сравнению с оптимальным человеческим путем.
- Reasonable Operation Ratio (ROR): процент действий, после которых экран изменился, указывая на эффективность операций.
Набор данных AndroidInstruct
Для обучения моделей был создан набор данных AndroidInstruct, включающий 10.5k траекторий и 94.3k шагов, из которых 726 траекторий и 6208 шагов использовались для дообучения моделей. Этот набор данных содержит задачи, состояния экрана телефона, XML-информацию и операции.
Эксперименты и результаты
Установка экспериментов
Эксперименты проводились с использованием различных моделей, включая закрытые (GPT-4, Gemini) и открытые (Llama, GLM) модели, как LLM, так и LMM. Для каждой задачи было установлено ограничение в 25 шагов выполнения.
Основные результаты
- Закрытые модели: GPT-4-1106-Preview показал наилучший результат в XML-режиме с SR 31.16%, а в SoM-режиме GPT-4o достиг того же уровня успеха.
- Открытые модели: после дообучения на AndroidInstruct, модели показали значительное улучшение, подняв средний SR с 4.59% до 21.50% для LLM и с 1.93% до 13.28% для LMM.
- Влияние дообучения: дообучение значительно повысило эффективность и точность операций, уменьшив избыточность и улучшив соотношение разумных операций.
Дополнительные выводы
- Влияние размера окна: оптимальная производительность агентов наблюдалась на экранах, соответствующих размерам популярных смартфонов.
- Анализ агентских фреймворков: ReAct значительно улучшил производительность в XML-режиме, но не в SoM. SeeAct не показал значительного улучшения, возможно из-за ограничений моделей в обработке мультимодальных входных данных.
Заключение
AndroidLab предоставляет мощный инструмент для исследования и улучшения автономных агентов для Android. Платформа обеспечивает стандартизированную среду для обучения и оценки, позволяя проводить справедливые сравнения между различными моделями. Дообучение на специализированных данных, таких как AndroidInstruct, показало значительное улучшение производительности открытых моделей, что подчеркивает потенциал для дальнейших исследований и разработок в области мобильных агентов.