Свежая выжимка ml и AI статей - каждый день
В последние годы языковые модели (LLM) значительно продвинулись в способности понимать и генерировать человеческий язык, что открыло новые возможности для их использования в качестве агентов для автоматизации задач на веб-сайтах. Однако, несмотря на эти достижения, реактивные подходы, основанные на LLM, все еще уступают по эффективности человеческому взаимодействию с веб-интерфейсами. В этой статье мы рассмотрим инновационный подход к использованию LLM не только как инструментов для понимания языка, но и как моделей мира для планирования и навигации по веб-сайтам.
Планирование — это процесс поиска оптимальной последовательности действий для достижения цели из начального состояния. В контексте веб-навигации это означает определение последовательности кликов, ввода текста, прокрутки и других действий, которые приведут к выполнению заданной задачи. Традиционно планирование включает в себя алгоритмы, такие как поиск по дереву, которые могут быть весьма эффективны, но в реальных веб-условиях они сталкиваются с проблемами:
WEB-DREAMER — это новая парадигма, которая использует LLM для моделирования мира веб-сайтов, позволяя агентам планировать действия без непосредственного взаимодействия с реальными веб-страницами. Основная идея заключается в том, что LLM, обученные на огромном количестве веб-данных, могут предсказывать, как изменится состояние веб-страницы после выполнения определенного действия.
Симуляция: WEB-DREAMER использует LLM для моделирования возможных результатов каждого кандидата на действие. Например, если агент хочет нажать кнопку, LLM может предсказать, что произойдет после этого действия.
Оценка: Каждый из возможных результатов оценивается на предмет того, насколько он приближает агента к выполнению задачи.
Выбор действия: На основе оценок выбирается оптимальное действие, которое затем выполняется в реальном веб-окружении.
Этот процесс повторяется итеративно, пока LLM не определит, что задача выполнена.
WEB-DREAMER был протестирован на двух бенчмарках: VisualWebArena и Mind2Web-live, которые представляют собой реалистичные задачи навигации по веб-сайтам. Результаты показали значительное улучшение по сравнению с реактивными агентами:
Эти результаты подтверждают, что использование LLM как моделей мира для планирования действий в веб-среде может существенно повысить эффективность агентов.
WEB-DREAMER представляет собой новый подход к автоматизации веб-навигации, где LLM используются не только для понимания языка, но и для моделирования динамики веб-сайтов. Этот метод открывает новые горизонты для исследований в области оптимизации LLM для моделирования мира и разработки алгоритмов планирования на основе моделей для языковых агентов. В будущем, с дальнейшим развитием LLM и методов их обучения, мы можем ожидать еще более эффективных и безопасных агентов, способных выполнять сложные задачи в интернете с минимальным риском и максимальной эффективностью.