Свежая выжимка ml и AI статей - каждый день
Генерация видео на основе текстовых описаний (Text-to-Video, T2V) в последние годы значительно развилась благодаря достижениям в области глубокого обучения и диффузионных трансформеров (DiT). Однако, несмотря на впечатляющие результаты, существующие методы часто сталкиваются с проблемами, связанными с недостаточной детализацией аннотаций, галлюцинациями и неточностями в изображении движений. В данной статье мы представляем новый подход, названный InstanceCap, который предлагает структурированные аннотации с учётом экземпляров для повышения точности и качества генерации видео.
Современные методы генерации видео на основе текста обычно требуют наличия парных данных видео и аннотаций. Однако, как показано на рисунке 1, существующие методы аннотирования видео можно разделить на три основные категории:
Основные проблемы, с которыми сталкиваются существующие подходы, заключаются в:
InstanceCap представляет собой новый метод структурированных аннотаций, который обеспечивает аннотирование на уровне экземпляров, что позволяет более точно описывать объекты, их движения и взаимодействия. Основные аспекты нашего подхода включают:
Переход от глобального видео к локальным экземплярам: Мы предлагаем кластер вспомогательных моделей (Auxiliary Models Cluster, AMC), который позволяет выделять экземпляры из оригинального видео и получать информацию о их положении и категории. Это минимизирует влияние нерелевантных областей и сохраняет как можно больше информации из оригинального видео.
Переход от плотных аннотаций к структурированным фразам: Используя многомодальные большие языковые модели (MLLM), мы применяем улучшенный процесс "Цепочка размышлений" (Chain-of-Thought, CoT) для получения лаконичных и точных описаний текстур, движений камеры, действий и динамики для каждого экземпляра. Это снижает вероятность галлюцинаций и нерелевантного контента.
Для обучения мы создали набор данных InstanceVid, состоящий из 22 000 высококачественных видео, тщательно отобранных для демонстрации высокоэстетичных и высокосогласованных видео. Этот набор данных обеспечивает структурированные аннотации для видео в открытых сценариях и включает разнообразные экземпляры, а также точные аннотации, пригодные для генерации видео.
Набор данных был структурирован с акцентом на видео с явными экземплярами, обеспечивая сбалансированное представление различных сцен, чтобы избежать смещения в сторону определённых типов контента. Мы также сосредоточились на коротких видео (2-10 секунд), так как большинство современных моделей T2V оптимизированы для работы в этом диапазоне.
InstanceEnhancer — это метод, который позволяет эффективно улучшать короткие аннотации, чтобы они лучше соответствовали нашей структуре аннотаций с учётом экземпляров. Мы используем двухступенчатую стратегию улучшения:
Мы провели серию экспериментов по оценке эффективности InstanceCap в сравнении с современными методами, такими как Panda-70M, ShareGPT4Video и MiraData. Для этого мы использовали 100 видеоклипов из наборов данных OpenVid-1M и Animal Kingdom, генерируя аннотации с помощью различных моделей аннотирования.
Мы применили несколько метрик для оценки качества аннотаций:
Результаты показали, что InstanceCap значительно улучшает качество аннотаций по сравнению с другими методами, обеспечивая более высокую точность и меньшую вероятность галлюцинаций. Например, наши аннотации лучше сохраняли информацию о таких деталях, как "очки", "серый свитер" и "относительное положение двух человек", в то время как MiraData теряла эти важные детали.
В данной статье мы представили InstanceCap — первый метод структурированных аннотаций с учётом экземпляров для генерации видео по тексту. Наш подход включает использование вспомогательных моделей для улучшения точности аннотаций и создание набора данных InstanceVid для обучения. Экспериментальные результаты показывают, что InstanceCap значительно улучшает качество генерации видео, обеспечивая высокую точность и минимизируя галлюцинации.
В будущем мы планируем применить InstanceCap к более крупным наборам данных и обучить более мощные модели T2V для расширения его влияния и применения в различных областях.