OS-Atlas: Фундаментальная модель действий для универсальных GUI-агентов
Существующие усилия по созданию агентов графического интерфейса пользователя (GUI) сильно зависят от наличия надежных коммерческих моделей визуально-языкового взаимодействия (VLM), таких как GPT-4o и GeminiProVision. Практики часто неохотно используют открытые VLM из-за их значительного отставания в производительности по сравнению с закрытыми аналогами, особенно в задачах привязки к GUI и в сценариях, выходящих за рамки распределения (OOD). Для содействия будущим исследованиям в этой области мы разработали OS-Atlas - фундаментальную модель действий GUI, которая превосходно справляется с привязкой к GUI и агентными задачами OOD благодаря инновациям как в области данных, так и в моделировании. Мы вложили значительные инженерные усилия в разработку открытого инструментария для синтеза данных привязки к GUI на нескольких платформах, включая Windows, Linux, MacOS, Android и веб. Используя этот инструментарий, мы публикуем крупнейший на данный момент открытый кросс-платформенный корпус данных привязки GUI, который содержит более 13 миллионов элементов GUI. Это набор данных, в сочетании с инновациями в обучении моделей, обеспечивает прочную основу для OS-Atlas для понимания снимков экрана GUI и обобщения на невидимые интерфейсы. В ходе обширной оценки по шести эталонам, охватывающим три разные платформы (мобильные, настольные и веб), OS-Atlas демонстрирует значительные улучшения производительности по сравнению с предыдущими моделями, признанными лучшими. Наша оценка также выявляет ценные инсайты для постоянного улучшения и масштабирования агентных возможностей открытых VLM.