ВидеоGLaMM: Модель для точной визуальной привязки в видео

В современном мире, где видео контент становится все более важным, точная привязка текстовых описаний к визуальным элементам видео представляет собой значительный вызов. Этот вызов обусловлен сложной динамикой пространственных и временных изменений в видео. Несмотря на успехи в области Large Multimodal Models (LMMs), которые могут обрабатывать базовые диалоги о видео, они часто сталкиваются с трудностями при точной привязке на уровне пикселей. В ответ на эту проблему мы представляем VideoGLaMM — новую модель, разработанную для тонкой визуальной привязки в видео на основе текстовых запросов пользователя.

Развитие Large Language Models (LLMs) значительно продвинуло вперед обработку языковых задач, включая сложное логическое рассуждение. Это привело к их применению в визуальных задачах, что в свою очередь вызвало появление LMMs. Эти модели стремятся синхронизировать текстовые и визуальные модальности, используя различные методы, такие как слои проекции или блоки перекрестного внимания, для сопоставления визуальных признаков с пространством языковой модели. Однако, несмотря на эти достижения, существующие Video-LMMs сталкиваются с ограничениями при попытке точной локализации объектов в видео.

ВидеоGLaMM: Архитектура и подход

VideoGLaMM представляет собой инновационный подход к решению проблемы точной визуальной привязки в видео. Основные компоненты модели включают:

Large Language Model (LLM): Этот компонент отвечает за обработку и генерацию текстовых ответов.
Двойной визуальный энкодер: Этот модуль разделяет пространственные и временные признаки видео, что позволяет модели учитывать как локальные детали, так и глобальные изменения во времени.
Спатио-временной декодер: Используется для создания точных масок объектов, которые соответствуют текстовым описаниям.

Интеграция компонентов

Взаимодействие между этими компонентами осуществляется через адаптеры V→L и L→V, которые обеспечивают тесную связь между визуальными и языковыми данными. Эти адаптеры позволяют модели не только понимать текстовые инструкции, но и точно привязывать их к соответствующим объектам в видео.

Обучение и данные

Для обучения VideoGLaMM мы создали уникальный мультимодальный датасет, который включает в себя детализированные визуально привязанные диалоги. Этот датасет был сформирован с помощью полуавтоматического процесса аннотации, в результате чего получены 38 тысяч видео-QA триплетов, 83 тысячи объектов и 671 тысяча масок. Этот набор данных обеспечивает модель необходимыми примерами для обучения точной привязки на уровне пикселей.

Оценка и результаты

VideoGLaMM был оценен на трех сложных задачах:

Генерация привязанных диалогов: Модель показала превосходство в создании текстовых ответов, привязанных к конкретным объектам в видео.
Визуальная привязка: Модель демонстрирует высокую точность в сопоставлении текстовых описаний с визуальными элементами видео.
Сегментация видео по запросу: ВидеоGLaMM значительно улучшает результаты в задаче сегментации видео по текстовым запросам.

Результаты

Экспериментальные результаты показывают, что VideoGLaMM последовательно превосходит существующие подходы по всем трем задачам. Например, в задаче генерации привязанных диалогов, модель достигла значительных улучшений по метрикам mIOU и Recall, а также по метрикам оценки качества диалога, таких как METEOR, CIDEr и CLAIR.

Ограничения и будущее развитие

Несмотря на впечатляющие результаты, VideoGLaMM имеет свои ограничения. Одним из них является потенциальный шум в аннотациях датасета, что может влиять на качество обучения. Кроме того, модель пока не оптимизирована для обработки очень длинных видео. В будущем планируется улучшение качества датасета и расширение возможностей модели для работы с более длинными видео.

Заключение

VideoGLaMM представляет собой значительный шаг вперед в области мультимодальных моделей, предлагая инновационный подход к точной визуальной привязке в видео. Интеграция двойного визуального энкодера и спатио-временного декодера, а также использование адаптеров для синхронизации визуальных и языковых данных, позволяет модели достигать высокой точности в привязке объектов в видео к текстовым описаниям. Это открывает новые возможности для взаимодействия с видео контентом, делая его более доступным и понятным для пользователей.

Статья на arxiv Оригинал pdf decoder encoder segmentation

Ай Дайджест