TheAgentCompany: Оценка возможностей агентов на основе LLM в реальных условиях

В последние годы мы наблюдаем значительные достижения в области больших языковых моделей (LLM) и их применения в качестве искусственных агентов, способных взаимодействовать с окружающей средой. В частности, исследование под названием "The Agent Company" предлагает новый подход к оценке этих агентов, сосредотачиваясь на выполнении реальных профессиональных задач. В данной статье мы рассмотрим ключевые концепции, представленные в этой работе, и их значение для будущего автоматизации труда.

Современные технологии стремительно развиваются, и LLM играют важную роль в этой трансформации. Успехи в области искусственного интеллекта (AI) открывают новые горизонты для автоматизации задач, которые ранее считались исключительно человеческими. Однако, несмотря на оптимизм, существуют и скептики, утверждающие, что LLM не способны к истинному рассуждению и не могут хорошо обобщать информацию на новые задачи.

Одной из причин этого разрыва является отсутствие объективных стандартов для оценки производительности LLM-агентов. В этой статье мы представляем "The Agent Company" — расширяемую платформу для оценки AI-агентов, которые взаимодействуют с миром аналогично цифровым работникам, выполняя задачи, такие как веб-серфинг, написание кода и общение с коллегами.

Концепция TheAgentCompany

Цели и задачи

"The Agent Company" была создана с целью измерения прогресса LLM-агентов в выполнении реальных профессиональных задач. Исследование включает в себя создание самодостаточной среды, имитирующей небольшую программную компанию, где агенты должны выполнять различные задачи, связанные с программированием, управлением проектами и анализом финансов.

Структура среды

Среда "The Agent Company" включает в себя несколько ключевых компонентов:

Локальная рабочая область: Агенты работают в защищенной среде, где они могут безопасно выполнять задачи, используя браузер, редактор кода и терминал Linux.
Интранет: Эта часть среды имитирует внутренние веб-сайты компании, которые содержат код, документы и программное обеспечение для управления проектами.
Коммуникация с коллегами: Агенты могут обмениваться сообщениями с другими симулированными коллегами, что позволяет оценить их способности к взаимодействию и сотрудничеству.

Задачи и оценка

Задачи в "The Agent Company" структурированы таким образом, чтобы включать четкие намерения и контрольные точки, которые агенты должны достигнуть. Каждая задача начинается с описания, имитирующего инструкции от пользователя, и делится на контрольные точки, каждая из которых имеет определенное количество баллов. Оценка производится с использованием программ, которые проверяют выполнение контрольных точек.

Оценка производительности

Методология

Для оценки производительности LLM-агентов в "The Agent Company" были протестированы семь различных языковых моделей. Результаты показали, что лучшие агенты могут автономно выполнять около 24% задач, что указывает на значительный, но все еще ограниченный уровень автоматизации.

Сравнение с другими бенчмарками

"The Agent Company" выделяется среди других существующих бенчмарков благодаря своей способности охватывать широкий спектр задач, требующих взаимодействия и долгосрочного планирования. В отличие от других бенчмарков, "The Agent Company" предоставляет возможность взаимодействия с симулированными коллегами, что является важным аспектом работы в реальной среде.

Результаты экспериментов

Обзор результатов

Эксперименты показали, что даже самые современные модели, такие как Claude 3.5 Sonnet, могут успешно завершить лишь небольшую часть задач. Это подчеркивает необходимость дальнейших исследований и улучшений в области AI-агентов.

Анализ по типам задач

Результаты также показывают, что агенты хуже справляются с задачами, требующими социальной интеракции, а также с задачами, связанными с навигацией по сложным пользовательским интерфейсам. Это указывает на существующий разрыв между воспринимаемой сложностью задач для людей и фактической сложностью для LLM-агентов.

Проблемы и ограничения

Несмотря на значительные достижения, "The Agent Company" сталкивается с рядом проблем. Во-первых, многие задачи остаются невыполненными, что указывает на необходимость улучшения в области понимания контекста и социальных взаимодействий. Во-вторых, текущие модели часто не способны эффективно справляться с задачами, требующими сложной навигации по веб-интерфейсам.

Заключение и будущее

Работа "The Agent Company" представляет собой важный шаг в понимании возможностей и ограничений LLM-агентов в реальных условиях. Несмотря на текущие ограничения, наблюдается значительный прогресс в способности AI-агентов выполнять профессиональные задачи. В будущем необходимо расширить бенчмарк, включая более сложные и многогранные задачи, чтобы лучше понять, как AI может повлиять на трудовые процессы в различных отраслях.

Таким образом, "The Agent Company" предоставляет основу для дальнейших исследований в области AI и автоматизации, открывая новые горизонты для будущих разработок и улучшений.

Статья на arxiv Оригинал pdf tasks models agents

Ай Дайджест