Свежая выжимка ml и AI статей - каждый день
В последние годы крупные языковые модели (LLM), такие как GPT-4 и Claude, достигли значительных успехов в понимании и генерации естественного языка, что привело к их широкому применению в различных областях, включая переговоры и стратегическое принятие решений. Однако, несмотря на эти достижения, способность LLM действовать рационально в стратегических ситуациях, описываемых теорией игр, остается предметом исследований. Рациональность в этом контексте подразумевает способность модели принимать решения, максимизирующие ожидаемую полезность на основе доступной информации, что является ключевым элементом интеллектуального и адаптивного поведения.
Исследования LLM в игровых средах затрагивают важные социальные аспекты, поскольку пользователи все чаще полагаются на интеллектуальных помощников для взаимодействия с другими агентами, которые также могут быть LLM. Ранние исследования часто использовали теорию игр для анализа поведения LLM, сравнивая их с идеальными стратегиями, такими как парето-оптимальные решения и субигрово совершенные равновесия. Также существует растущий интерес к многомодельным LLM и их оценке в рамках таких платформ, как AvalonBench.
Теория игр изучает стратегическое поведение в ситуациях, где результат зависит от действий всех участников. Введем основные понятия:
В этом разделе мы исследуем классические сценарии теории игр с полной информацией, чтобы оценить, могут ли LLM действовать как рациональные агенты, достигая равновесия Нэша и парето-оптимальных результатов через переговоры.
Мы разработали тестовую среду, включающую 10 классических игр с полной информацией, чтобы оценить рациональность и стратегические способности LLM. Эти игры разделены на одновременные и последовательные:
Мы использовали четыре передовых LLM в качестве основы для агентов: Claude-3.5 Sonnet, Claude-3 Opus, GPT-4o и o1. Температура для первых трех моделей была установлена на 1.0, чтобы поощрить исследовательское поведение, а для o1 использовалась настройка по умолчанию.
Мы оценили производительность LLM с использованием метода "цепочки мыслей" (chain-of-thought) без переговоров и с четырьмя раундами переговоров. Результаты показали, что переговоры часто улучшают результаты, особенно в координационных играх, где агенты должны общаться для достижения равновесия.
Мы разработали рабочие процессы для руководства LLM в принятии решений в играх с полной информацией:
Использование рабочего процесса значительно улучшило производительность LLM, особенно в играх, где требуется координация и стратегическое мышление. Однако, в некоторых случаях, переговоры могли отклонять агентов от рациональных стратегий, что подчеркивает важность структурированного подхода к переговорам.
В этом разделе мы переходим к более реалистичным и сложным сценариям игр с неполной информацией, где игроки не знают оценок ресурсов друг друга. Мы сосредоточились на общем распределении ресурсов, где каждый игрок имеет свои частные оценки, которые суммируются до общего значения.
Мы формализовали игру как распределение ресурсов между игроками, где каждый игрок имеет вектор оценок, отражающий их индивидуальные предпочтения.
Для игр с неполной информацией мы разработали новый алгоритм, который позволяет агентам проводить переговоры под неопределенностью, обновляя свои убеждения на основе наблюдаемых действий и сообщений. Этот процесс включает в себя:
Мы использовали набор данных "Deal or No Deal" для тестирования и валидации нашего подхода в условиях неполной информации во время переговоров.
Для оценки переговорных способностей LLM мы выбрали 50 наиболее сложных данных из набора данных, где распределение ресурсов было справедливым.
Эксперименты показали, что использование рабочего процесса значительно улучшает результаты переговоров, приводя к более справедливому и эффективному распределению ресурсов. Однако, когда только один агент использует рабочий процесс, он может быть эксплуатирован агентом, который не следует этому процессу.
Исследование показало, что LLM могут действовать рационально в стратегических ситуациях, особенно когда используются специально разработанные рабочие процессы. Эти процессы помогают агентам достигать равновесия Нэша и парето-оптимальных результатов, даже в условиях неопределенности. Однако, переговоры могут иногда приводить к отклонению от рациональных стратегий, что подчеркивает необходимость в дальнейших исследованиях для улучшения устойчивости LLM к таким влияниям.
Для дальнейшего развития:
Эти направления помогут усовершенствовать стратегическое мышление и переговорные способности LLM, обеспечивая их эффективность и рациональность в реальных сценариях.