AgentTrek: Синтез траекторий агентов через руководство с использованием веб-учебников
Графические интерфейсы пользователя (GUI) имеют большой потенциал для автоматизации сложных задач в различных цифровых средах, от веб-приложений до настольного программного обеспечения. Однако развитие таких агентов затрудняется отсутствием качественных данных о многоступенчатых траекториях, необходимых для эффективного обучения. Существующие подходы полагаются на дорогую и трудоемкую аннотацию людьми, что делает их неустойчивыми в больших масштабах. Для решения этой проблемы мы предлагаем AgentTrek, масштабируемый поток данных синтеза, который генерирует качественные траектории GUI-агентов, используя веб-уроки. Наш метод автоматически собирает тексты, подобные учебникам, из интернета, трансформирует их в цели задач с пошаговыми инструкциями и использует агента модели визуального языка для моделирования их выполнения в реальной цифровой среде. Оценщик на основе VLM обеспечивает правильность сгенерированных траекторий. Мы демонстрируем, что обучение GUI-агентов с помощью этих синтезированных траекторий значительно улучшает их основание и планирование по сравнению с существующими моделями. Более того, наш подход более экономически эффективен по сравнению с традиционными методами аннотации людьми. Эта работа подчеркивает потенциал управляемого воспроизведения с помощью веб-уроков как жизнеспособной стратегии для обучения GUI-агентов в больших масштабах, открывая путь к более способным и автономным цифровым агентам.