
Модельные агенты для навигации по веб-сайтам: Использование LLM в качестве моделей мира
Агенты языка продемонстрировали перспективные возможности в автоматизации веб-задач, хотя их текущие реактивные подходы все еще значительно уступают человеческим способностям. Включение в процесс продвинутых алгоритмов планирования, особенно методов поиска по дереву, может улучшить работу этих агентов, однако непосредственное применение поиска по дереву на живых веб-сайтах представляет значительные риски безопасности и практические ограничения из-за необратимых действий, таких как подтверждение покупки. В этой статье мы представляем новый парадигм, который дополняет языковых агентов планированием на основе модели, пионерски используя большие языковые модели (LLMs) в качестве моделей мира в сложных веб-окружениях. Наш метод, WebDreamer, опирается на ключевое понимание того, что LLM по своей природе кодируют всесторонние знания о структурах и функциях веб-сайтов. В частности, WebDreamer использует LLM для моделирования результатов для каждого возможного действия (например, "что произойдет, если я нажму эту кнопку?") с использованием описаний на естественном языке, и затем оценивает эти воображаемые результаты для определения оптимального действия на каждом шаге. Эмпирические результаты на двух репрезентативных бенчмарках для веб-агентов с онлайн-взаимодействием — VisualWebArena и Mind2Web-live — демонстрируют, что WebDreamer достигает значительных улучшений по сравнению с реактивными базовыми линиями. Устанавливая жизнеспособность LLM как моделей мира в веб-окружениях, эта работа закладывает основу для сдвига парадигмы в автоматизированном веб-взаимодействии. Более широко, наши результаты открывают захватывающие новые направления для будущих исследований в области 1) оптимизации LLM специально для моделирования мира в сложных, динамических средах и 2) планирования на основе модели для языковых агентов.