Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Динамические Агенты на Основе LLM: Преодоление Ограничений Предопределённых Действий

В мире искусственного интеллекта (ИИ) создание автономных агентов, способных взаимодействовать с окружающей средой и выполнять сложные задачи, является одной из ключевых целей. Традиционные подходы, такие как обучение с подкреплением (RL), достигли значительных успехов в узких областях, но часто сталкиваются с проблемами адаптации и обобщения в динамических и неопределённых средах. С развитием крупных языковых моделей (LLM) появилась возможность создания более гибких и адаптивных агентов, способных решать реальные проблемы за счёт своей способности к рассуждению и обширному знанию мира, полученному во время предварительного обучения.

Проблемы Существующих Систем LLM Агентов

Существующие системы LLM агентов обычно выбирают действия из фиксированного набора на каждом шаге. Этот подход эффективен в закрытых, узко специализированных средах, но имеет два основных недостатка:

  1. Ограничение Гибкости: Выбор из предопределённого набора действий значительно ограничивает возможности планирования и выполнения действий агентов. Это не позволяет им адаптироваться к новым или неожиданным ситуациям.

  2. Человеческие Усилия: Необходимость перечисления и реализации всех возможных действий требует значительных усилий от разработчиков, что становится невыполнимым в сложных средах с большим количеством потенциальных действий.

Предлагаемое Решение: DynaSaur

В данной работе предлагается новая рамка для агентов LLM, называемая DynaSaur, которая позволяет динамическое создание и компоновку действий в режиме онлайн. Вместо выбора из фиксированного набора, агент взаимодействует с окружающей средой, генерируя и выполняя программы на общем языке программирования на каждом шаге. Это обеспечивает следующие преимущества:

  • Динамическое Создание Действий: Агент может создавать новые функции, когда существующие недостаточны, или повторно использовать уже созданные функции.
  • Аккумуляция Действий: Со временем накапливаются все сгенерированные действия, что позволяет агенту расширять свои возможности и компоновать сложные действия из более простых.

Методология

Представление Действий

Для представления действий используется Python, что обеспечивает:

  • Обобщённость: Python достаточно выразителен, чтобы представлять действия, способные решать широкий спектр задач.
  • Компоновка: Поддержка компоновки действий через функции и библиотеки Python.

Каждое действие представлено как функция Python, что упрощает интеграцию с существующими инструментами и библиотеками.

Получение Действий

Для управления накопленными действиями, они разделяются на два подмножества:

  • Человечески спроектированные действия: Включаются в подсказку по умолчанию.
  • Сгенерированные действия: Доступны через функцию извлечения действий.

Функция извлечения действий, обозначенная как ( R ), использует косинусное сходство для поиска наиболее релевантных действий на основе запроса агента.

Аккумуляция Действий

Процесс аккумуляции действий включает:

  • Исполнение действий: Агент генерирует и выполняет Python-код для взаимодействия с окружающей средой.
  • Накопление: Все сгенерированные действия сохраняются для будущего использования, что позволяет агенту расширять свои возможности.

Эксперименты и Результаты

Экспериментальная Установка

Для оценки предложенной рамки использовался бенчмарк GAIA, который предназначен для проверки общих способностей агентов в широком диапазоне задач. В экспериментах также использовались различные базовые модели LLM, такие как GPT-4o и GPT-4o mini.

Основные Результаты

DynaSaur значительно превзошел предыдущие методы по всем уровням сложности задач GAIA, показав, что возможность выполнения произвольных действий и накопление действий со временем дает существенные преимущества перед традиционными подходами с фиксированным набором действий.

Абляционное Исследование

Абляционное исследование показало, что:

  • Накопление действий улучшает общую производительность.
  • Реализация произвольных действий повышает гибкость агента.
  • Начальный набор действий, разработанный людьми, оказывает наибольшее влияние на производительность.

Измерение Покрытия Действий

Введена метрика для оценки качества набора сгенерированных действий, которая измеряет, насколько эффективно набор действий может покрыть задачи. Показано, что с увеличением числа действий в наборе, покрытие задач улучшается.

Заключение

Предложенная рамка DynaSaur для агентов LLM, позволяющая динамическое создание и компоновку действий, демонстрирует значительное улучшение гибкости и производительности по сравнению с традиционными подходами. Это открывает новые возможности для создания более адаптивных и эффективных систем ИИ, способных решать сложные задачи в реальном мире.