Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Исследование рациональности LLM в контексте теории игр

В последние годы крупные языковые модели (LLM), такие как GPT-4 и Claude, достигли значительных успехов в понимании и генерации естественного языка, что привело к их широкому применению в различных областях, включая переговоры и стратегическое принятие решений. Однако, несмотря на эти достижения, способность LLM действовать рационально в стратегических ситуациях, описываемых теорией игр, остается предметом исследований. Рациональность в этом контексте подразумевает способность модели принимать решения, максимизирующие ожидаемую полезность на основе доступной информации, что является ключевым элементом интеллектуального и адаптивного поведения.

Связанные работы

Исследования LLM в игровых средах затрагивают важные социальные аспекты, поскольку пользователи все чаще полагаются на интеллектуальных помощников для взаимодействия с другими агентами, которые также могут быть LLM. Ранние исследования часто использовали теорию игр для анализа поведения LLM, сравнивая их с идеальными стратегиями, такими как парето-оптимальные решения и субигрово совершенные равновесия. Также существует растущий интерес к многомодельным LLM и их оценке в рамках таких платформ, как AvalonBench.

Основы теории игр

Теория игр изучает стратегическое поведение в ситуациях, где результат зависит от действий всех участников. Введем основные понятия:

  • Полная информация: Игра, в которой все игроки знают структуру игры, включая наборы действий и функции выплат всех игроков.
  • Неполная информация: Игра, в которой по крайней мере один игрок не имеет полной информации о выплатах или действиях других игроков.
  • Одновременная игра: Игроки выбирают свои действия одновременно, не зная решений других.
  • Последовательная игра: Игроки делают свои выборы по очереди, зная предыдущие действия.
  • Матрица выплат: Таблица, показывающая выплаты каждого игрока для каждой комбинации стратегий.
  • Равновесие Нэша: Ситуация, в которой ни один игрок не может улучшить свой результат, изменив стратегию, при условии, что другие игроки не меняют свои стратегии.
  • Отсутствие зависти: Условие, при котором каждый игрок получает долю, которую он считает не хуже, чем доля другого игрока.
  • Парето-оптимальность: Состояние, в котором невозможно улучшить положение одного игрока без ухудшения положения другого.

Игры с полной информацией

В этом разделе мы исследуем классические сценарии теории игр с полной информацией, чтобы оценить, могут ли LLM действовать как рациональные агенты, достигая равновесия Нэша и парето-оптимальных результатов через переговоры.

Введение в тестовую среду для игр с полной информацией

Мы разработали тестовую среду, включающую 10 классических игр с полной информацией, чтобы оценить рациональность и стратегические способности LLM. Эти игры разделены на одновременные и последовательные:

  • Одновременные игры: Дилемма заключенного, Охота за оленем, Битва полов, Игра "Жди-Иди", Дуополистическая конкуренция.
  • Последовательные игры: Эскалационная игра, Монопольная игра, Игра "Горячо-Холодно", Драко и Гарри, Триграмма.

Установки эксперимента

Мы использовали четыре передовых LLM в качестве основы для агентов: Claude-3.5 Sonnet, Claude-3 Opus, GPT-4o и o1. Температура для первых трех моделей была установлена на 1.0, чтобы поощрить исследовательское поведение, а для o1 использовалась настройка по умолчанию.

Оценка производительности LLM

Мы оценили производительность LLM с использованием метода "цепочки мыслей" (chain-of-thought) без переговоров и с четырьмя раундами переговоров. Результаты показали, что переговоры часто улучшают результаты, особенно в координационных играх, где агенты должны общаться для достижения равновесия.

Дизайн рабочего процесса на основе классической теории игр

Мы разработали рабочие процессы для руководства LLM в принятии решений в играх с полной информацией:

  • Для одновременных игр: Агенты определяют оптимальные стратегии, учитывая возможные действия и ответы противника.
  • Для последовательных игр: Используется метод обратной индукции, анализируя игру от конца к началу.

Эксперименты с использованием рабочего процесса

Использование рабочего процесса значительно улучшило производительность LLM, особенно в играх, где требуется координация и стратегическое мышление. Однако, в некоторых случаях, переговоры могли отклонять агентов от рациональных стратегий, что подчеркивает важность структурированного подхода к переговорам.

Игры с неполной информацией и переговорами

В этом разделе мы переходим к более реалистичным и сложным сценариям игр с неполной информацией, где игроки не знают оценок ресурсов друг друга. Мы сосредоточились на общем распределении ресурсов, где каждый игрок имеет свои частные оценки, которые суммируются до общего значения.

Введение в распределение общих ресурсов с частными оценками

Мы формализовали игру как распределение ресурсов между игроками, где каждый игрок имеет вектор оценок, отражающий их индивидуальные предпочтения.

Дизайн рабочего процесса

Для игр с неполной информацией мы разработали новый алгоритм, который позволяет агентам проводить переговоры под неопределенностью, обновляя свои убеждения на основе наблюдаемых действий и сообщений. Этот процесс включает в себя:

  • Предложение распределения: Агенты предлагают распределение ресурсов, стремясь максимизировать свою полезность, но при этом сохраняя справедливость.
  • Обновление убеждений: Если предложение отклонено, агенты обновляют свои убеждения о предпочтениях противника, используя байесовское обновление.

Исследование "Deal or No Deal"

Мы использовали набор данных "Deal or No Deal" для тестирования и валидации нашего подхода в условиях неполной информации во время переговоров.

Экспериментальные настройки

Для оценки переговорных способностей LLM мы выбрали 50 наиболее сложных данных из набора данных, где распределение ресурсов было справедливым.

Результаты экспериментов

Эксперименты показали, что использование рабочего процесса значительно улучшает результаты переговоров, приводя к более справедливому и эффективному распределению ресурсов. Однако, когда только один агент использует рабочий процесс, он может быть эксплуатирован агентом, который не следует этому процессу.

Заключение

Исследование показало, что LLM могут действовать рационально в стратегических ситуациях, особенно когда используются специально разработанные рабочие процессы. Эти процессы помогают агентам достигать равновесия Нэша и парето-оптимальных результатов, даже в условиях неопределенности. Однако, переговоры могут иногда приводить к отклонению от рациональных стратегий, что подчеркивает необходимость в дальнейших исследованиях для улучшения устойчивости LLM к таким влияниям.

Будущие направления

Для дальнейшего развития:

  • Исследование уязвимостей рабочих процессов и методов их защиты.
  • Разработка стратегий для многомодовых игр.
  • Создание мета-стратегий для выбора оптимальных рабочих процессов.
  • Улучшение способности LLM понимать и отстаивать определенные интересы в переговорах.

Эти направления помогут усовершенствовать стратегическое мышление и переговорные способности LLM, обеспечивая их эффективность и рациональность в реальных сценариях.