Пропозер-Агент-Оценщик (PAE): Автономное открытие навыков для интернет-агентов на основе фундамента моделей

С развитием технологий искусственного интеллекта (AI) и больших языковых моделей (LLM), появляется возможность создания универсальных агентов, способных выполнять разнообразные задачи в цифровом мире. Однако, чтобы эти агенты могли эффективно действовать, им необходимо обладать обширным набором навыков, таких как поиск информации, покупка товаров в интернете и навигация по веб-страницам. В традиционных подходах навыки определяются вручную с использованием фиксированного набора аннотированных инструкций, что ограничивает возможности агента.

В данной работе представлена новая система, называемая Пропозер-Агент-Оценщик (PAE), которая позволяет агентам на основе фундамента моделей самостоятельно открывать и практиковать навыки в реальных условиях. PAE включает три ключевых компонента: пропозер задач, агент и автономный оценщик, которые взаимодействуют друг с другом для обучения агента.

Задача и подход

Проблема

Основная задача, которую решает PAE, заключается в том, чтобы обеспечить агентам возможность открывать и обучаться новым навыкам без необходимости в ручном аннотировании задач. Это особенно актуально, учитывая, что существующие методы часто требуют значительных затрат времени и ресурсов на создание аннотированных данных.

Методология PAE

PAE использует контекстно-осведомленные пропозеры задач, которые предлагают агента задачи на основе информации о текущей среде. Например, для интернет-агентов контекст может включать демонстрации пользователей или даже просто название веб-сайта. Агент, в свою очередь, пытается выполнить предложенные задачи, а результаты его действий оцениваются автономным оценщиком, основанным на визуальных языковых моделях (VLM).

Обучение с подкреплением

Успешная оценка действий агента служит сигналом вознаграждения, который используется для дообучения его политики с помощью методов обучения с подкреплением (RL). Таким образом, агент может адаптироваться и улучшать свои навыки, основываясь на полученных результатах.

Архитектура PAE

Компоненты системы

Пропозер задач: Этот компонент отвечает за предложение задач на основе контекста. Он использует информацию о текущей среде, чтобы генерировать реалистичные и осуществимые задачи.
Агент: Это основная модель, которая выполняет предложенные задачи. Агент использует RL для адаптации своей политики на основе полученных вознаграждений.
Автономный оценщик: Оценщик отвечает за предоставление сигналов вознаграждения на основе результатов действий агента. Он использует визуальные входные данные и конечный результат для определения успешности выполнения задачи.

Контекстно-осведомленные пропозеры задач

PAE применяет контекстно-осведомленные пропозеры, которые учитывают функции и ограничения среды. Например, для интернет-агента информация о веб-сайте может быть использована для генерации задач, которые могут быть выполнены на этом сайте. Это позволяет значительно расширить спектр задач, которые агент может выполнять, и улучшить его общую производительность.

Оценка результатов

Для оценки результатов PAE использует визуальные модели, которые предоставляют бинарные вознаграждения (успех/неуспех) на основе конечных результатов выполнения задач. Это позволяет избежать необходимости в доступе к скрытой информации о состоянии среды, что делает систему более устойчивой.

Эксперименты и результаты

Оценка эффективности PAE

В рамках экспериментов PAE была протестирована на сложных задачах веб-навигации, включая как реальные, так и самостийные веб-сайты. Результаты показали, что PAE значительно улучшает способность агентов к нулевому обучению (zero-shot learning), достигая более чем 30% относительного улучшения в успехе выполнения задач на не виденных веб-сайтах.

Сравнение с другими моделями

Сравнение с другими современными моделями показало, что PAE обеспечивает более чем 10% абсолютного преимущества по сравнению с другими открытыми VLM-агентами, такими как Qwen2VL-72B. Это подчеркивает значимость и эффективность предложенного подхода.

Заключение и будущее

PAE представляет собой значительный шаг вперед в области автономного открытия навыков для интернет-агентов на основе фундамента моделей. Система позволяет агентам самостоятельно открывать и адаптироваться к новым задачам, что открывает новые возможности для их применения в реальном мире. В будущем исследование будет сосредоточено на расширении этого подхода на другие домены и интеграции с более совершенными методами для использования контекстной информации.

Таким образом, PAE не только решает существующие проблемы, связанные с ручным аннотированием задач, но и открывает новые горизонты для развития универсальных агентов, способных эффективно взаимодействовать с окружающим миром.

Статья на arxiv Оригинал pdf reinforcement autonomy skills

Ай Дайджест