Свежая выжимка ml и AI статей - каждый день
Современные достижения в области больших языковых моделей (LLMs) и больших мультимодальных моделей (LMMs) привели к значительным изменениям в задачах понимания видео. Традиционно понимание видео полагалось на обучение моделей, специфичных для задач, с использованием домен-специфичных наборов данных, таких как распознавание действий или видеопоиск. Однако с развитием LMMs появилась возможность обрабатывать видео и решать разнообразные задачи с помощью единой модели. Тем не менее, большинство текущих LMMs оптимизированы для понимания коротких и низкоразрешающих видео, что создает значительные проблемы при работе с длительными или высокоразрешающими видео.
Существующие открытые наборы данных для обучения LMMs часто имеют ограничения, такие как низкое разрешение или короткая продолжительность видео. Например, набор данных VideoChat2 собирает видео из множества доменов, но в основном содержит короткие видео. FineVideo предлагает разнообразные видео, но ограничивается разрешением 360p. Это создает нехватку высококачественных наборов данных для видео с длительной продолжительностью и высоким разрешением, что затрудняет дальнейшее развитие моделей.
Чтобы преодолеть эти проблемы, мы предлагаем VISTA, простую, но эффективную систему аугментации видео, которая синтезирует пары видео и инструкций из существующих наборов данных с подписями к видео. VISTA использует пространственно-временные методы комбинирования видео для создания новых синтетических видео с увеличенной продолжительностью и улучшенным разрешением. Затем мы генерируем пары вопросов и ответов, относящиеся к этим новым видео.
VISTA включает в себя несколько методов аугментации видео и набор данных VISTA-400K, который направлен на улучшение понимания видео длительной и высокой разрешающей способности. В результате дообучения различных LMMs на нашем наборе данных мы наблюдаем среднее улучшение на 3.3% по четырем сложным бенчмаркам для понимания длинных видео.
VISTA включает в себя семь различных методов аугментации видео, каждый из которых нацелен на улучшение понимания видео различными способами.
Первый метод заключается в синтезе длинных видео путем временной конкатенации нескольких коротких клипов из одного и того же источника. Мы генерируем два типа инструкций:
Данный метод оценивает способность LMMs находить информацию в длинных видео. Мы создаем несколько вариантов NIAH, включая:
Мы создаем высокоразрешающие видео, комбинируя несколько низкоразрешающих клипов в сетку. Это позволяет LMMs изучать детали в высоком разрешении, требуя от них точно интерпретировать содержание в конкретной ячейке сетки.
Этот метод объединяет пространственные и временные аспекты, помещая короткое низкоразрешающее видео в длинное высокоразрешающее видео, чтобы LMMs могли понять контент на обоих уровнях.
VISTA-400K состоит из около 400,000 записей, каждая из которых включает длинное видео продолжительностью более 30 секунд и высокое разрешение не менее 960p. Набор данных был создан с использованием существующих публичных видеоподписей, что делает его полностью открытым и масштабируемым.
Для оценки эффективности VISTA мы представляем новый бенчмарк HRVideoBench, который нацелен на понимание высокоразрешающих видео. Он включает 200 вопросов, охватывающих 10 типов видео и задач, связанных с объектами и действиями.
Мы провели обширные эксперименты, чтобы оценить эффективность VISTA-400K на различных бенчмарках для понимания видео. Результаты показывают, что модели, дообученные на нашем наборе данных, демонстрируют значительное улучшение на всех тестах.
На бенчмарках для понимания длинных видео, таких как Video-MME и MLVU, модели, дообученные на VISTA-400K, показывают улучшение на 3.3% в среднем. Это улучшение особенно заметно на средних и длинных вопросах, что подтверждает эффективность нашего подхода.
На новом бенчмарке HRVideoBench, модели показывают прирост производительности на 6.5% после дообучения. Это демонстрирует, что VISTA действительно улучшает понимание деталей в высокоразрешающих видео.
Мы также проверили эффективность нашего метода на бенчмарках для кратких видео. Все модели, дообученные на VISTA-400K, показали улучшение на MVBench и NExT-QA, что подтверждает универсальность нашего подхода.
VISTA представляет собой мощный инструмент для улучшения понимания видео длительного и высокого разрешения, предоставляя синтетические данные, которые значительно усиливают возможности LMMs. Наша работа подчеркивает важность создания высококачественных наборов данных для обучения и тестирования современных моделей, а также открывает новые направления для будущих исследований в области видеоанализа.