Обзор исследования AndroidLab: Обучение и систематическая оценка автономных агентов для Android
Автономные агенты становятся всё более важными для взаимодействия с реальным миром. В частности, агенты на базе Android недавно стали часто упоминаемым методом взаимодействия. Однако существующие исследования по обучению и оценке агентов Android страдают от недостатка систематического подхода как к открытым, так и к закрытым моделям. В данной работе мы предлагаем AndroidLab как систематическую платформу для агентов Android. Она включает в себя операционную среду с различными модальностями, пространством действий и воспроизводимую эталонную оценку. AndroidLab поддерживает как большие языковые модели (LLMs), так и мультимодальные модели (LMMs) в одном пространстве действий. Этот бенчмарк включает предопределенные виртуальные устройства Android и 138 задач на девяти приложениях, разработанных для этих устройств. Используя среду AndroidLab, мы разработали набор инструкций для Android и обучили шесть открытых LLMs и LMMs, повысив средние показатели успешности с 4.59% до 21.50% для LLMs и с 1.93% до 13.28% для LMMs. AndroidLab открыт и доступен по адресу https://github.com/THUDM/Android-Lab.