VideoLights: Совершенствование обнаружения видео-выделений и извлечения моментов

В последние годы наблюдается резкий рост объема видеоконтента, доступного в интернете, что создает значительные проблемы для пользователей, стремящихся найти конкретные моменты или выделения в длинных записях. В ответ на эти вызовы, задачи обнаружения видео-выделений (Highlight Detection, HD) и извлечения моментов (Moment Retrieval, MR) становятся все более важными для анализа видео. В данной статье мы рассмотрим новый подход, предложенный в работе "VideoLights", который объединяет эти две задачи и преодолевает ограничения существующих методов.

Введение в задачи HD и MR

Задача HD заключается в автоматическом выявлении наиболее значимых моментов в видео, в то время как MR фокусируется на извлечении конкретных моментов, соответствующих запросам пользователей. Эти задачи тесно связаны и требуют глубокого понимания как текстовых, так и видеомодальностей. Однако многие существующие модели игнорируют взаимосвязи между этими задачами и не учитывают динамику взаимодействия между видео и текстом.

Ограничения существующих подходов

Современные модели, такие как Moment-DETR и QD-DETR, используют ограниченные механизмы внимания, что приводит к слабой интеграции представлений видео и текста. Эти подходы часто применяют одностороннее внимание, что не позволяет эффективно захватывать взаимосвязи между различными модальностями. Несмотря на успехи крупных языковых и визуально-языковых моделей (LLM и LVLM), их применение в задачах HD и MR остается недостаточно исследованным.

Архитектура VideoLights

В ответ на указанные ограничения, авторы представили новый фреймворк VideoLights, который включает несколько ключевых компонентов:

Модуль уточнения и выравнивания признаков (FRA): Этот модуль обеспечивает взаимодействие и уточнение признаков как внутри одной модальности (видео или текст), так и между ними. Он использует свёрточные сети для локального и глобального выравнивания признаков.
Сеть двустороннего перекрестного слияния модальностей (Bi-CMF): Эта сеть использует многоголовое внимание для двустороннего внимания между текстом и видео, что позволяет создать сильно связанные представления, учитывающие запросы.
Механизм обратной связи для совместного обучения задач (Uni-JFM): Этот механизм улучшает корреляцию задач, используя потери, специфичные для каждой задачи, и потери, связанные с кросс-задачами.
Адаптивное исправление ошибок: Включает потери для сложных положительных и отрицательных примеров, что способствует улучшению обучения.
Интеллектуальное предобучение модели: Использует LVLM, такие как BLIP-2, для улучшения интеграции мультимодальных признаков и интеллектуального предобучения на синтетических данных.

Модули VideoLights

1. Модуль FRA

Модуль FRA играет центральную роль в выравнивании признаков текста и видео. Он состоит из двух этапов: локального выравнивания с помощью свёрточных слоев и глобального выравнивания через вычисление карты соответствия. Это позволяет выделять видео-токены, которые семантически соответствуют текстовым признакам.

2. Сеть Bi-CMF

Сеть Bi-CMF использует несколько слоев перекрестного внимания для обучения взаимосвязи между текстовыми и видео-признаками. Это позволяет более эффективно учитывать контекст запроса при анализе видео, что значительно улучшает качество извлечения моментов и выделения.

3. Uni-JFM

Механизм Uni-JFM использует результаты одной задачи для улучшения другой, что позволяет моделям учиться более эффективно. Это достигается за счет вычисления потерь, связанных с кросс-задачами, что способствует лучшему взаимодействию между HD и MR.

Эксперименты и результаты

VideoLights был протестирован на нескольких общепризнанных бенчмарках, таких как QVHighlights, TVSum и Charades-STA. Результаты показали, что VideoLights значительно превосходит предыдущие модели по всем основным метрикам. Например, на QVHighlights модель достигла улучшения на 1.4% по сравнению с предыдущими передовыми методами.

Влияние различных модулей

Анализ модулей VideoLights показал, что каждый из них вносит свой вклад в общую производительность. Модуль FRA обеспечил среднее улучшение на 7.93% по всем метрикам, а Bi-CMF увеличил производительность на 4.03%. Внедрение адаптивных потерь также продемонстрировало значительное влияние на результаты.

Заключение

VideoLights представляет собой мощный фреймворк для совместного решения задач обнаружения видео-выделений и извлечения моментов. Благодаря инновационным подходам к взаимодействию между текстом и видео, а также использованию современных моделей, таких как BLIP-2, VideoLights достигает выдающихся результатов на нескольких бенчмарках. Будущие исследования могут сосредоточиться на дальнейших улучшениях в области мультимодального слияния и более широком применении в реальных видео-платформах.

Статья на arxiv Оригинал pdf integration fusion models

Ай Дайджест