ВидеоGLaMM: Модель для точной визуальной привязки в видео
Точное согласование между видео и текстом является сложной задачей из-за сложной пространственной и временной динамики в видео. Существующие видеобазированные крупномасштабные мультимодальные модели (LMMs) справляются с базовыми разговорами, но испытывают трудности с точным привязыванием на уровне пикселей в видео. Для решения этой проблемы мы представляем VideoGLaMM, LMM, предназначенный для точного привязывания на уровне пикселей в видео на основе текстовых вводов, предоставленных пользователем. Наш дизайн безупречно соединяет три ключевых компонента: крупномасштабную языковую модель, двойной визуальный энкодер, который акцентирует внимание как на пространственных, так и на временных деталях, и пространственно-временной декодер для точной генерации масок. Это соединение облегчается через настраиваемые V-L и L-V адаптеры, которые обеспечивают тесное согласование между визуальным и языковым содержанием (VL). Архитектура обучена синхронизировать как пространственные, так и временные элементы видеоконтента с текстовыми инструкциями. Для обеспечения точного привязывания мы создаем мультимодальный набор данных, включающий детальные визуально-обоснованные разговоры с использованием полуавтоматической аннотационной цепочки, что приводит к разнообразному набору из 38 тысяч видео-QA триплетов, 83 тысяч объектов и 671 тысячу масок. Мы оцениваем VideoGLaMM на трех сложных задачах: генерация обоснованных разговоров, визуальное привязывание и сегментация видео по ссылке. Экспериментальные результаты показывают, что наша модель постоянно превосходит существующие подходы по всем трем задачам.