Свежая выжимка ml и AI статей - каждый день
В мире искусственного интеллекта (ИИ) создание автономных агентов, способных взаимодействовать с окружающей средой и выполнять сложные задачи, является одной из ключевых целей. Традиционные подходы, такие как обучение с подкреплением (RL), достигли значительных успехов в узких областях, но часто сталкиваются с проблемами адаптации и обобщения в динамических и неопределённых средах. С развитием крупных языковых моделей (LLM) появилась возможность создания более гибких и адаптивных агентов, способных решать реальные проблемы за счёт своей способности к рассуждению и обширному знанию мира, полученному во время предварительного обучения.
Существующие системы LLM агентов обычно выбирают действия из фиксированного набора на каждом шаге. Этот подход эффективен в закрытых, узко специализированных средах, но имеет два основных недостатка:
Ограничение Гибкости: Выбор из предопределённого набора действий значительно ограничивает возможности планирования и выполнения действий агентов. Это не позволяет им адаптироваться к новым или неожиданным ситуациям.
Человеческие Усилия: Необходимость перечисления и реализации всех возможных действий требует значительных усилий от разработчиков, что становится невыполнимым в сложных средах с большим количеством потенциальных действий.
В данной работе предлагается новая рамка для агентов LLM, называемая DynaSaur, которая позволяет динамическое создание и компоновку действий в режиме онлайн. Вместо выбора из фиксированного набора, агент взаимодействует с окружающей средой, генерируя и выполняя программы на общем языке программирования на каждом шаге. Это обеспечивает следующие преимущества:
Для представления действий используется Python, что обеспечивает:
Каждое действие представлено как функция Python, что упрощает интеграцию с существующими инструментами и библиотеками.
Для управления накопленными действиями, они разделяются на два подмножества:
Функция извлечения действий, обозначенная как ( R ), использует косинусное сходство для поиска наиболее релевантных действий на основе запроса агента.
Процесс аккумуляции действий включает:
Для оценки предложенной рамки использовался бенчмарк GAIA, который предназначен для проверки общих способностей агентов в широком диапазоне задач. В экспериментах также использовались различные базовые модели LLM, такие как GPT-4o и GPT-4o mini.
DynaSaur значительно превзошел предыдущие методы по всем уровням сложности задач GAIA, показав, что возможность выполнения произвольных действий и накопление действий со временем дает существенные преимущества перед традиционными подходами с фиксированным набором действий.
Абляционное исследование показало, что:
Введена метрика для оценки качества набора сгенерированных действий, которая измеряет, насколько эффективно набор действий может покрыть задачи. Показано, что с увеличением числа действий в наборе, покрытие задач улучшается.
Предложенная рамка DynaSaur для агентов LLM, позволяющая динамическое создание и компоновку действий, демонстрирует значительное улучшение гибкости и производительности по сравнению с традиционными подходами. Это открывает новые возможности для создания более адаптивных и эффективных систем ИИ, способных решать сложные задачи в реальном мире.