Понимаем видео последовательности с помощью Prompt-guided Pooling LLaVA

В последнее время видео-ориентированные модели большого языка (Video LLM) значительно продвинулись вперёд, однако проблема создания универсальной модели, способной обрабатывать как короткие, так и длинные видео, остаётся актуальной. Большинство существующих Video LLM не могут эффективно работать с часовыми видео, а методы, разработанные специально для длинных видео, часто оказываются неэффективными для коротких видео или изображений. В этой статье мы исследуем ключевую проблему — избыточность контента в видео, и предлагаем новую стратегию объединения (pooling), которая одновременно сжимает токены и агрегирует визуальные особенности в зависимости от инструкций. Наша модель, названная Prompt-guided Pooling LLaVA (PPLLaVA), состоит из трёх основных компонентов:

Выравнивание визуальных подсказок на основе CLIP - извлекает визуальную информацию, релевантную инструкциям пользователя.
Объединение с учётом подсказок - сжимает визуальную последовательность до произвольных масштабов с использованием свёрточного объединения.
Расширение контекста CLIP - предназначено для обработки длинных подсказок, часто встречающихся в визуальных диалогах.

Кроме того, наша база кода интегрирует самые современные методы оптимизации прямых предпочтений для видео (Direct Preference Optimization, DPO) и обучение с визуальным переплетением.

Видео-ориентированные модели большого языка (Video LLM) за последний год показали значительные улучшения. Учитывая обширные ресурсы и дефицит качественных данных для предварительного обучения видео, переход от моделей изображений к видео (Image-to-Video transfer) стал более практичным подходом. Построенные на базе самых продвинутых LLM для изображений, существующие Video LLM обычно обрабатывают различия между модальностями изображений и видео через создание инструкционных данных для видео, моделирование временных последовательностей или агрегацию токенов видео.

Между тем, широкий спектр видео-бенчмарков и тестовых задач предоставляет разнообразные перспективы и варианты для оценки способностей Video LLM, включая ответы на вопросы по видео, плотное описание видео, вопросы с множественным выбором и оценку длинных видео.

Для временного моделирования интуитивным подходом является прямая подача токенов из каждого кадра в LLM, что доказало свою эффективность в нескольких исследованиях. Однако этот метод приводит к чрезмерно длинному визуальному контексту, что увеличивает потребление вычислительных ресурсов и время обработки, а также ограничивает способность модели обрабатывать длинные видео.

Чтобы решить эту проблему, существует несколько альтернативных подходов. Один из них — усреднение по временному измерению, часто используемое в ранних Video LLM. Хотя этот подход сохраняет постоянную длину контекста, он значительно уменьшает способность модели захватывать временную динамику. Модели, специально разработанные для длинных видео, часто включают уникальные структуры, такие как механизмы памяти, которые позволяют обрабатывать видео длиной в часы, но они мало полезны для коротких видео или изображений. Ещё один подход — использование условного объединения токенов или агрегации, что позволяет сократить длину контекста, сохраняя при этом некоторую пространственно-временную структуру, что способствует более эффективному пространственно-временному моделированию.

Основные проблемы и решения

Видео содержат значительную избыточность, с ключевой информацией, часто сосредоточенной в нескольких кадрах, что особенно верно для длинных видео. Для Video LLM эта проблема может быть ещё более выраженной. Как показано на рисунке 1(a), инструкция пользователя может относиться только к небольшой части видео, остальная часть будет избыточной для корректного ответа на вопрос. Таким образом, если мы сможем извлечь ключевую информацию из видео, сжимая токены, мы сможем сохранить или даже улучшить производительность.

В этом контексте модели изображений (Image LLM) предложили ценные идеи. Серия BLIP и LLaVA являются двумя наиболее популярными структурами в мультимодальных LLM. BLIP использует Q-Former для сопоставления изображений с текстом, в то время как серия LLaVA применяет простые линейные проекции или многослойные перцептроны (MLP). Недавние исследования показали, что простые сопоставления могут достигать лучших результатов с меньшим обучением.

Однако, несмотря на требования к большему количеству вычислительных ресурсов и этапов обучения, Q-Former предлагает два ключевых преимущества: во-первых, он значительно сокращает количество визуальных токенов, преобразуя их в меньшее количество запросов; во-вторых, через взаимодействие между текстовыми и визуальными токенами внутри Q-Former, он позволяет более целенаправленно извлекать визуальные особенности, релевантные инструкциям пользователя.

Предлагаемое решение: Prompt-guided Pooling LLaVA (PPLLaVA)

Мы предлагаем метод, который сохраняет простую структуру LLaVA и её мощные веса, при этом сокращая количество токенов и обеспечивая извлечение особенностей с учётом подсказок. PPLLaVA включает в себя:

Выравнивание визуальных подсказок на основе CLIP - идентифицирует визуальные представления, релевантные подсказкам, через детальное сопоставление видения и подсказок.
Объединение с учётом подсказок - использует релевантность видения и подсказок в качестве 3D-сверточного ядра для сжатия визуальных токенов до желаемого размера.
Расширение контекста CLIP - асимметричное расширение позиционных вложений для увеличения длины текстового контекста, необходимого для обучения Video LLM, особенно для многоходовых диалогов.

Таким образом, PPLLaVA эффективно извлекает релевантные визуальные особенности как из длинных текстов, так и из коротких фраз, сжимая при этом токены видео. PPLLaVA достигает более чем 80% сжатия, поддерживает сверхдлинные видеовходы и одновременно улучшает производительность на коротких видео.

Эксперименты и результаты

Мы провели обширные эксперименты на последних мультимодальных бенчмарках LLM, которые подтвердили превосходство PPLLaVA. С превосходной пропускной способностью, PPLLaVA достигла лучших результатов на широком спектре тестовых наборов, включая MSRVTT, MSVD, ActivityNet, VCG Bench, MVBench и Video-MME. Эти бенчмарки охватывают задачи, такие как ответы на вопросы по видео, детальное описание видео и вопросы с множественным выбором, с длинами видео от секунд до часов.

Кроме того, наша база кода интегрировала передовые методы для Video LLM, включая DPO и обучение с визуальным переплетением. Как показано на рисунке 1(b), по сравнению с недавними ведущими Video LLM, PPLLaVA демонстрирует явные преимущества как на видео-, так и на изображениях-бенчмарках, при этом отвечая в 7 раз быстрее, чем LLaVA-Next-Video-7B.

Заключение

В этой статье мы предложили PPLLaVA, новый метод объединения, который одновременно достигает сжатия токенов и извлечения особенностей с учётом инструкций. Наша модель значительно сокращает визуальный контекст, сохраняя при этом эффективность извлечения ключевых визуальных особенностей. Обширные эксперименты продемонстрировали эффективность PPLLaVA как на изображениях, так и на видео, достигая лучших результатов на различных бенчмарках задач и длин видео, обеспечивая при этом отличную эффективность, особенно на длинных видео.

Статья на arxiv Оригинал pdf video prompt benchmark

Ай Дайджест

Понимаем видео последовательности с помощью Prompt-guided Pooling LLaVA

Основные проблемы и решения

Предлагаемое решение: Prompt-guided Pooling LLaVA (PPLLaVA)

Эксперименты и результаты

Заключение