SALOVA: Segment-Augmented Long Video Assistant для целенаправленного извлечения и маршрутизации в анализе длинных видео

В эпоху цифровизации, где видеоконтент становится всё более значимым, понимание и анализ длинных, неотредактированных видео становится критически важной задачей. Однако, несмотря на значительные достижения в области больших мультимодальных моделей (LMM), обработка длинных видео остаётся сложной задачей из-за ограничений в длине контекста и значительного потребления памяти. Эти ограничения часто приводят к потере важной информации и снижению релевантности ответов модели.

В этой статье мы представляем SALOVA (Segment-Augmented Long Video Assistant), новаторскую платформу, разработанную для улучшения понимания длинного видеоконтента через целенаправленный процесс извлечения. SALOVA адресует два основных вызова:

Создание датасета SceneWalk: Высококачественного набора данных из 87.8K длинных видео, каждое из которых плотно аннотировано на уровне сегментов, что позволяет моделям улавливать непрерывность сцен и поддерживать богатый описательный контекст.
Разработка архитектурных решений: Интеграция динамического механизма маршрутизации и пространственно-временного проектора для эффективного извлечения и обработки релевантных сегментов видео на основе пользовательских запросов.

Создание датасета SceneWalk

Сбор данных и обработка

Для создания датасета SceneWalk, который фокусируется на длинных и неотредактированных видеосюжетах, мы учитывали три ключевых аспекта:

Длительность видео и разнообразие категорий: Мы выбрали видео с YouTube, обеспечивая разнообразие и сложность контента, отражающего реальные условия.
Качество контента: Исключались низкокачественные и эстетические пользовательские видео, которые больше подходят для задач генерации видео.
Частые переходы сцен: Видео с частыми изменениями сцен были предпочтительны для обучения модели распознаванию и пониманию динамических изменений в контенте.

Сегментация видео на клипы

Видео сегментировались на более мелкие части с использованием PySceneDetect, который динамически настраивает порог обнаружения сцен, основываясь на визуальной информации. Это позволило получить 1.29M сегментов видео с средней длиной 33.11 секунд.

Плотная аннотация сегментов

Каждый сегмент видео был снабжен детальным описанием, созданным с помощью предобученных моделей (VILA-1.5-13B), обеспечивая среднюю длину описания в 137.5 слов. Эти описания охватывают как визуальные, так и нарративные элементы, что обогащает интерпретацию на уровне сцен.

Оценка соответствия видео и текста

Для обучения модели мы использовали LanguageBind для измерения соответствия между видео и текстом, а также SBERT для оценки текстового контекста, создавая матрицы соответствия для обучения модели на распознавание релевантных сегментов.

Архитектура SALOVA

Обзор сети

SALOVA состоит из четырёх основных компонентов:

Визуальный энкодер: Используется CLIP-ViT-L-336px для извлечения визуальных признаков.
Пространственно-временной коннектор: Управляет пространственно-временными признаками, используя Perceiver Resampler для встраивания сегментов видео в фиксированные латентные векторы.
Маршрутизатор извлечения сегментов: Выбирает и маршрутизирует релевантные сегменты видео в LLM (Large Language Model) на основе текстовых запросов.
LLM: Мы использовали различные модели, такие как LLaMA-3.2, Phi-3.5 и Qwen-2.5, для обработки и генерации ответов.

Обработка длинного видео и конвейер

Пространственно-временной коннектор

Этот компонент эффективно обрабатывает длинные и переменные по длине входные видео сегменты, извлекая их визуальные семантики в фиксированные латентные векторы. Для этого используется динамический токен-дроп, который уменьшает вычислительную нагрузку, сохраняя при этом важные визуальные данные.

Маршрутизатор извлечения сегментов

Ключ к передаче релевантной информации из видео в LLM заключается в извлечении соответствующих сегментов видео на основе запроса. Маршрутизатор извлечения сегментов использует трансформеры для оценки сходства между сегментами видео и текстовыми запросами, обеспечивая целенаправленный выбор сегментов для дальнейшей обработки.

Подход FocusFast

SALOVA применяет стратегию FocusFast, которая разделяет обработку видео на две ветви:

Focus: Концентрируется на детальном анализе выбранных сегментов для глубокого понимания.
Fast: Быстро получает общий контекст видео, используя маршрутизирующие токены из всех сегментов.

Эта стратегия позволяет SALOVA поддерживать комплексное понимание видео, приоритизируя детали там, где это необходимо, и эффективно обрабатывая длинные и неотредактированные видео.

Заключение

SALOVA представляет собой значительный шаг вперёд в области анализа длинных видео, предлагая решение для двух основных проблем: ограниченной длины контекста и высокого потребления памяти. С помощью инновационного подхода к извлечению сегментов и динамической маршрутизации, SALOVA позволяет моделям эффективно работать с длинными видеосюжетами, сохраняя при этом релевантность и точность ответов на запросы пользователей.

Статья на arxiv Оригинал pdf model context memory

Ай Дайджест