Обзор исследования AndroidLab: Обучение и систематическая оценка автономных агентов для Android

В последние годы автономные агенты становятся все более значимыми для взаимодействия с реальным миром, особенно в контексте мобильных операционных систем, таких как Android. Несмотря на значительные достижения в области больших языковых моделей (LLM) и моделей с многомодальным вводом (LMM), существующие методы обучения и оценки Android-агентов страдают от недостатка систематического подхода, особенно в сравнении открытых и закрытых моделей. В данной статье мы рассмотрим исследование, представленное в работе "AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents", которое предлагает новую рамку для оценки и обучения Android-агентов.

AndroidLab: Обзор

AndroidLab представляет собой новую платформу, предназначенную для систематической оценки и обучения Android-агентов. Она включает в себя:

Операционную среду с различными модальностями, пространством действий и воспроизводимым бенчмарком.
Поддержку LLM и LMM в одинаковом пространстве действий.
Бенчмарк AndroidLab, который включает предопределенные виртуальные устройства Android и 138 задач на девяти приложениях.

Операционная среда

Пространство действий

AndroidLab определяет базовые операции для взаимодействия с Android-устройством:

Tap (кликнуть)
Swipe (провести)
Type (ввод текста)
Long Press (долгий клик)
Press Key (нажатие клавиш)
Finish (завершение)

Режимы работы

AndroidLab предлагает два основных режима работы:

XML-режим: для текстовых моделей (LLM), где агент получает информацию о экране в виде сжатого XML.
SoM-режим (Set-of-Mark): для мультимодальных моделей (LMM), где каждый кликабельный или фокусируемый элемент на экране помечается числом, и агент выбирает элемент по его номеру.

Для каждого из этих режимов также реализованы два дополнительных метода:

ReAct: позволяет модели думать пошагово и выводить свои рассуждения перед выполнением действий.
SeeAct: разделяет процесс рассуждения и выбор элемента, требуя от модели сначала описать желаемое действие, а затем выполнить его.

Бенчмарк AndroidLab

Задачи

Бенчмарк включает 138 задач, разделенных на два типа:

Операционные задачи: агент должен выполнить серию действий для достижения цели.
Запросные задачи: агент должен ответить на вопросы, основываясь на информации из телефона.

Метрики

Для оценки эффективности агентов используются следующие метрики:

Success Rate (SR): процент успешно выполненных задач.
Sub-Goal Success Rate (Sub-SR): процент успешно выполненных подцелей.
Reversed Redundancy Ratio (RRR): показывает эффективность действий агента по сравнению с оптимальным человеческим путем.
Reasonable Operation Ratio (ROR): процент действий, после которых экран изменился, указывая на эффективность операций.

Набор данных AndroidInstruct

Для обучения моделей был создан набор данных AndroidInstruct, включающий 10.5k траекторий и 94.3k шагов, из которых 726 траекторий и 6208 шагов использовались для дообучения моделей. Этот набор данных содержит задачи, состояния экрана телефона, XML-информацию и операции.

Эксперименты и результаты

Установка экспериментов

Эксперименты проводились с использованием различных моделей, включая закрытые (GPT-4, Gemini) и открытые (Llama, GLM) модели, как LLM, так и LMM. Для каждой задачи было установлено ограничение в 25 шагов выполнения.

Основные результаты

Закрытые модели: GPT-4-1106-Preview показал наилучший результат в XML-режиме с SR 31.16%, а в SoM-режиме GPT-4o достиг того же уровня успеха.
Открытые модели: после дообучения на AndroidInstruct, модели показали значительное улучшение, подняв средний SR с 4.59% до 21.50% для LLM и с 1.93% до 13.28% для LMM.
Влияние дообучения: дообучение значительно повысило эффективность и точность операций, уменьшив избыточность и улучшив соотношение разумных операций.

Дополнительные выводы

Влияние размера окна: оптимальная производительность агентов наблюдалась на экранах, соответствующих размерам популярных смартфонов.
Анализ агентских фреймворков: ReAct значительно улучшил производительность в XML-режиме, но не в SoM. SeeAct не показал значительного улучшения, возможно из-за ограничений моделей в обработке мультимодальных входных данных.

Заключение

AndroidLab предоставляет мощный инструмент для исследования и улучшения автономных агентов для Android. Платформа обеспечивает стандартизированную среду для обучения и оценки, позволяя проводить справедливые сравнения между различными моделями. Дообучение на специализированных данных, таких как AndroidInstruct, показало значительное улучшение производительности открытых моделей, что подчеркивает потенциал для дальнейших исследований и разработок в области мобильных агентов.

Статья на arxiv Оригинал pdf android dataset benchmark

Ай Дайджест