Модельные агенты для навигации по веб-сайтам: Использование LLM в качестве моделей мира

В последние годы языковые модели (LLM) значительно продвинулись в способности понимать и генерировать человеческий язык, что открыло новые возможности для их использования в качестве агентов для автоматизации задач на веб-сайтах. Однако, несмотря на эти достижения, реактивные подходы, основанные на LLM, все еще уступают по эффективности человеческому взаимодействию с веб-интерфейсами. В этой статье мы рассмотрим инновационный подход к использованию LLM не только как инструментов для понимания языка, но и как моделей мира для планирования и навигации по веб-сайтам.

Планирование на основе моделей

Планирование — это процесс поиска оптимальной последовательности действий для достижения цели из начального состояния. В контексте веб-навигации это означает определение последовательности кликов, ввода текста, прокрутки и других действий, которые приведут к выполнению заданной задачи. Традиционно планирование включает в себя алгоритмы, такие как поиск по дереву, которые могут быть весьма эффективны, но в реальных веб-условиях они сталкиваются с проблемами:

Безопасность: Многие действия на веб-сайтах необратимы, например, подтверждение покупки или отправка формы с личными данными.
Ограничения: Невозможность отката действий или повторного запуска веб-страницы в том же состоянии.

WEB-DREAMER: Новый подход

WEB-DREAMER — это новая парадигма, которая использует LLM для моделирования мира веб-сайтов, позволяя агентам планировать действия без непосредственного взаимодействия с реальными веб-страницами. Основная идея заключается в том, что LLM, обученные на огромном количестве веб-данных, могут предсказывать, как изменится состояние веб-страницы после выполнения определенного действия.

Как работает WEB-DREAMER

Симуляция: WEB-DREAMER использует LLM для моделирования возможных результатов каждого кандидата на действие. Например, если агент хочет нажать кнопку, LLM может предсказать, что произойдет после этого действия.
Оценка: Каждый из возможных результатов оценивается на предмет того, насколько он приближает агента к выполнению задачи.
Выбор действия: На основе оценок выбирается оптимальное действие, которое затем выполняется в реальном веб-окружении.

Этот процесс повторяется итеративно, пока LLM не определит, что задача выполнена.

Эмпирические результаты

WEB-DREAMER был протестирован на двух бенчмарках: VisualWebArena и Mind2Web-live, которые представляют собой реалистичные задачи навигации по веб-сайтам. Результаты показали значительное улучшение по сравнению с реактивными агентами:

На VisualWebArena WEB-DREAMER достиг 33.3% улучшения относительно реактивного базового уровня.
На Mind2Web-live улучшение составило 13.1%.

Эти результаты подтверждают, что использование LLM как моделей мира для планирования действий в веб-среде может существенно повысить эффективность агентов.

Заключение

WEB-DREAMER представляет собой новый подход к автоматизации веб-навигации, где LLM используются не только для понимания языка, но и для моделирования динамики веб-сайтов. Этот метод открывает новые горизонты для исследований в области оптимизации LLM для моделирования мира и разработки алгоритмов планирования на основе моделей для языковых агентов. В будущем, с дальнейшим развитием LLM и методов их обучения, мы можем ожидать еще более эффективных и безопасных агентов, способных выполнять сложные задачи в интернете с минимальным риском и максимальной эффективностью.