BALROG: Оценка агентных возможностей LLM и VLM на играх

С недавним прогрессом в области больших языковых моделей (LLM) и моделей, связывающих текст и визуальные данные (VLM), возрос интерес к созданию универсальных агентов, способных автономно достигать сложных целей. Эти модели обладают обширными знаниями и демонстрируют многообещающие способности к рассуждению. Тем не менее, они все еще сталкиваются с трудностями в сложных динамических средах. Реальные задачи требуют обработки сложных взаимодействий, продвинутого пространственного мышления, долгосрочного планирования и непрерывного изучения новых стратегий — областей, в которых у нас нет эффективных методологий для комплексной оценки этих возможностей.

Чтобы заполнить этот пробел, мы представляем BALROG — новую платформу для тестирования агентных возможностей LLM и VLM через разнообразный набор сложных игр. BALROG объединяет различные существующие среды обучения с подкреплением с разными уровнями сложности, включая задачи, которые могут быть решены неэкспертными людьми за считанные секунды, и крайне сложные, которые могут занять годы на освоение, такие как NetHack Learning Environment.

Концепция BALROG

BALROG — это бенчмарк и фреймворк, который агрегирует разнообразные сложные игровые среды обучения с подкреплением в единую тестовую площадку для исследований по долгосрочному контексту LLM. Игры исторически служили высокоэффективными метриками для оценки прогресса в исследованиях глубокого обучения с подкреплением. Объединяя множество различных игровых сред в единое оценивание, мы стремимся стимулировать прогресс в разработке действительно универсальных агентов, которые могут эффективно решать задачи, связанные с реальным миром.

Игровые среды

BALROG позволяет бесшовное выполнение агентов LLM и VLM в следующих играх:

BabyAI: Простая двумерная сеточная среда, где агент должен решать задачи различной сложности, описанные на естественном языке.
Crafter: Среда, вдохновленная Minecraft, где игрок должен исследовать, собирать ресурсы и создавать предметы для выживания.
TextWorld: Полностью текстовая игра, где агент должен исследовать лабиринты и взаимодействовать с повседневными объектами через естественный язык.
Baba Is AI: Среда на основе популярной головоломки, где игрок манипулирует правилами игрового мира, изменяя, как объекты взаимодействуют друг с другом.
MiniHack: Многофункциональная платформа, построенная на NetHack, которая позволяет исследовать множество задач, включая навигацию и управление ресурсами.
NetHack Learning Environment (NLE): Классическая игра roguelike, известная своей сложностью и глубиной.

Эти среды имеют легковесные симуляторы, что обеспечивает доступность бенчмарка для исследовательского сообщества. Все игры имеют долгосрочную перспективу, охватывая широкий спектр уровней сложности.

Оценка и метрики

Мы разработали тонкие метрики для измерения производительности и провели обширную оценку нескольких популярных открытых и закрытых LLM и VLM. Наши результаты показывают, что, хотя текущие модели достигают частичного успеха в более простых играх, они значительно испытывают трудности с более сложными задачами. Особенно заметны серьезные недостатки в принятии решений на основе визуальных данных, так как модели показывают худшие результаты, когда предоставляются визуальные представления окружающей среды.

В рамках BALROG мы применяем стандартизированную метрику, оценивающую производительность на каждой задаче в диапазоне от 0 до 100. Для сред, таких как MiniHack и NetHack, каждая сессия оценивается как 0 или 100 на основе выполнения задачи, в то время как для других сред результат представляет собой реальное число между 0 и 100, отражающее долю достижений по сравнению с максимальным баллом.

Результаты

Мы провели оценку нулевого выстрела для нескольких современных LLM и VLM на BALROG. Большинство моделей показывают удовлетворительный прогресс в BabyAI, Crafter и Baba Is AI, с GPT-4o, показывающим наилучшие результаты. Однако MiniHack и NetHack оказались крайне сложными для всех моделей, особенно для квестов и задач Boxoban, которые не были решены ни одной моделью.

Качественный анализ

Мы провели анализ траекторий моделей в различных средах, чтобы выявить общие поведения и проблемы, специфичные для каждой настройки. Например, в BabyAI модели продемонстрировали значительные недостатки в способности размещать объекты рядом с другими, что необходимо в некоторых сценариях. В NetHack и MiniHack модели часто оказывались в ловушках из-за недостаточного пространственного мышления.

Проблемы и возможности

Несмотря на значительные достижения, текущие модели показывают существенные недостатки в таких областях, как долгосрочное планирование и систематическое исследование. Мы наблюдаем явный "разрыв между знанием и действием", когда модели не могут эффективно применять знания в практике, что приводит к неудачам в игре.

Открытые исследовательские проблемы

BALROG открывает множество направлений для будущих исследований. Например, изучение стратегий обучения в контексте, таких как few-shot prompting, может помочь улучшить производительность агентов. Кроме того, интеграция методов многопользовательского сотрудничества и использования инструментов в процессе принятия решений может привести к более адаптивным и универсальным агентам.

Заключение

BALROG представляет собой важный инструмент для оценки агентных возможностей LLM и VLM в сложных динамических средах. Он выявляет критические недостатки в текущих моделях, особенно в областях принятия решений на основе визуальных данных и долгосрочного планирования. Мы верим, что BALROG будет служить критически важным инструментом для поддержки и продвижения исследований в направлении автономных агентов LLM, предоставляя исследователям возможность оценивать и улучшать модели в условиях, близких к реальным.

Статья на arxiv Оригинал pdf benchmark evaluation vision

Ай Дайджест