Свежая выжимка ml и AI статей - каждый день
Видео-модели на основе больших языковых моделей (Vid-LLM) достигли значительных успехов в понимании контента видео для задач вопросно-ответного взаимодействия и диалога. Однако, когда дело доходит до точной временной локализации событий в видео, известной как Video Temporal Grounding (VTG), эти модели сталкиваются с серьезными трудностями. В этой статье мы рассмотрим новый подход, названный Number-Prompt (NumPro), который облегчает Vid-LLM понимание временных аспектов видео, используя аналогию с чтением манги.
Представьте себе, что вы смотрите кулинарное видео и пытаетесь найти точный момент, когда шеф-повар добавляет специи. Хотя распознавание таких действий возможно, определение точного времени или номера кадра, когда это происходит, может быть невероятно сложным. Эта проблема является ключевой в области VTG.
Vid-LLM, несмотря на свои достижения в распознавании и понимании видео, часто не могут точно определить, когда событие начинается и заканчивается, что ограничивает их применение в задачах, требующих временной точности.
Чтение манги предоставляет интересный аналог для решения этой проблемы. В манге каждая панель имеет свой номер, что позволяет читателю легко следить за последовательностью событий. Это вдохновило нас на создание метода NumPro, который добавляет уникальные числовые идентификаторы к каждому кадру видео, делая VTG столь же интуитивно понятным, как и чтение манги.
NumPro преобразует видео в последовательность пронумерованных кадров. Когда модель получает запрос на поиск события, она может использовать эти номера для точного определения временных границ события.
Для оптимизации NumPro мы провели исследование, чтобы найти наилучшие параметры для размера шрифта, цвета и позиции номеров:
Эксперименты показали, что NumPro значительно улучшает производительность VTG:
Интеграция NumPro в общие задачи видео-QA показала, что модели сохраняют высокую производительность в понимании контента, одновременно улучшая временное понимание. Это подтверждает, что NumPro не только улучшает VTG, но и не ухудшает общие способности моделей к пониманию видео.
NumPro представляет собой инновационный подход, который позволяет Vid-LLM эффективно выполнять задачи временной локализации, используя простую, но мощную аналогию с чтением манги. Этот метод не требует значительных изменений в архитектуре моделей или дополнительного обучения, что делает его универсальным решением для улучшения временного понимания в видео.
NumPro доказывает, что простые визуальные подсказки могут значительно улучшить способность моделей к временному анализу, открывая новые возможности для их применения в интерактивных системах видеоанализа и диалога.