Ай Дайджест - категория ood

VideoICL: Новая эра в понимании видео с помощью итеративного обучения в контексте

Недавние достижения в области больших мультимодальных моделей видео (LMMs) значительно улучшили их способности к пониманию и рассуждению в видео. Однако их эффективность снижается на задачах вне распределения (OOD), которые недостаточно представлены в обучающих данных. Традиционные методы, такие как дообучение на OOD наборах данных, непрактичны из-за высокой вычислительной стоимости. Хотя обучение в контексте (ICL) с примерами демонстрации показало многообещающие результаты в языковых задачах и задачах с изображениями и языком без дообучения, применение ICL к задачам видео-языка сталкивается с трудностями из-за ограниченной длины контекста в видео LMM, поскольку видео требуют более длинных токенов. Чтобы решить эти проблемы, мы предлагаем VideoICL, новую структуру обучения в контексте видео для OOD задач, которая вводит стратегию выбора релевантных примеров на основе сходства и итеративный подход к выводу, основанный на уверенности. Это позволяет выбирать наиболее релевантные примеры и сортировать их по сходству для использования при выводе. Если сгенерированный ответ имеет низкий уровень уверенности, наша структура выбирает новые примеры и снова выполняет вывод, итеративно уточняя результаты, пока не будет получен ответ с высокой уверенностью. Этот подход улучшает понимание видео OOD, расширяя эффективную длину контекста без высоких затрат. Экспериментальные результаты на нескольких бенчмарках демонстрируют значительные улучшения в производительности, особенно в специфических сценариях, закладывая основу для более широких приложений по пониманию видео. Код будет опубликован на https://github.com/KangsanKim07/VideoICL.

2024-12-05fine-tuning similarity multimodal

OS-Atlas: Фундаментальная модель действий для универсальных GUI-агентов

Существующие усилия по созданию агентов графического интерфейса пользователя (GUI) сильно зависят от наличия надежных коммерческих моделей визуально-языкового взаимодействия (VLM), таких как GPT-4o и GeminiProVision. Практики часто неохотно используют открытые VLM из-за их значительного отставания в производительности по сравнению с закрытыми аналогами, особенно в задачах привязки к GUI и в сценариях, выходящих за рамки распределения (OOD). Для содействия будущим исследованиям в этой области мы разработали OS-Atlas - фундаментальную модель действий GUI, которая превосходно справляется с привязкой к GUI и агентными задачами OOD благодаря инновациям как в области данных, так и в моделировании. Мы вложили значительные инженерные усилия в разработку открытого инструментария для синтеза данных привязки к GUI на нескольких платформах, включая Windows, Linux, MacOS, Android и веб. Используя этот инструментарий, мы публикуем крупнейший на данный момент открытый кросс-платформенный корпус данных привязки GUI, который содержит более 13 миллионов элементов GUI. Это набор данных, в сочетании с инновациями в обучении моделей, обеспечивает прочную основу для OS-Atlas для понимания снимков экрана GUI и обобщения на невидимые интерфейсы. В ходе обширной оценки по шести эталонам, охватывающим три разные платформы (мобильные, настольные и веб), OS-Atlas демонстрирует значительные улучшения производительности по сравнению с предыдущими моделями, признанными лучшими. Наша оценка также выявляет ценные инсайты для постоянного улучшения и масштабирования агентных возможностей открытых VLM.

2024-11-04vlms gui training