InstanceCap: Улучшение генерации видео по тексту с помощью структурированных аннотаций с учётом экземпляров

Генерация видео на основе текстовых описаний (Text-to-Video, T2V) в последние годы значительно развилась благодаря достижениям в области глубокого обучения и диффузионных трансформеров (DiT). Однако, несмотря на впечатляющие результаты, существующие методы часто сталкиваются с проблемами, связанными с недостаточной детализацией аннотаций, галлюцинациями и неточностями в изображении движений. В данной статье мы представляем новый подход, названный InstanceCap, который предлагает структурированные аннотации с учётом экземпляров для повышения точности и качества генерации видео.

Проблемы существующих подходов

Современные методы генерации видео на основе текста обычно требуют наличия парных данных видео и аннотаций. Однако, как показано на рисунке 1, существующие методы аннотирования видео можно разделить на три основные категории:

Краткие аннотации (например, Panda-70M), которые часто не охватывают все важные аспекты видео, что приводит к низкой точности.
Плотные аннотации (например, ShareGPT4Video), которые обеспечивают более полное представление, но подвержены галлюцинациям, создавая неуместный или неточный контент.
Структурированные аннотации грубого уровня (например, MiraData), которые улучшают качество видео, но не обеспечивают детализированных описаний.

Основные проблемы, с которыми сталкиваются существующие подходы, заключаются в:

Низкой точности между аннотациями и видео.
Недостаточной детализации аннотаций, что приводит к проблемам с точностью и полнотой описания движений.

Подход InstanceCap

InstanceCap представляет собой новый метод структурированных аннотаций, который обеспечивает аннотирование на уровне экземпляров, что позволяет более точно описывать объекты, их движения и взаимодействия. Основные аспекты нашего подхода включают:

Переход от глобального видео к локальным экземплярам: Мы предлагаем кластер вспомогательных моделей (Auxiliary Models Cluster, AMC), который позволяет выделять экземпляры из оригинального видео и получать информацию о их положении и категории. Это минимизирует влияние нерелевантных областей и сохраняет как можно больше информации из оригинального видео.
Переход от плотных аннотаций к структурированным фразам: Используя многомодальные большие языковые модели (MLLM), мы применяем улучшенный процесс "Цепочка размышлений" (Chain-of-Thought, CoT) для получения лаконичных и точных описаний текстур, движений камеры, действий и динамики для каждого экземпляра. Это снижает вероятность галлюцинаций и нерелевантного контента.

Создание набора данных InstanceVid

Для обучения мы создали набор данных InstanceVid, состоящий из 22 000 высококачественных видео, тщательно отобранных для демонстрации высокоэстетичных и высокосогласованных видео. Этот набор данных обеспечивает структурированные аннотации для видео в открытых сценариях и включает разнообразные экземпляры, а также точные аннотации, пригодные для генерации видео.

Статистический анализ InstanceVid

Набор данных был структурирован с акцентом на видео с явными экземплярами, обеспечивая сбалансированное представление различных сцен, чтобы избежать смещения в сторону определённых типов контента. Мы также сосредоточились на коротких видео (2-10 секунд), так как большинство современных моделей T2V оптимизированы для работы в этом диапазоне.

Улучшение аннотаций с помощью InstanceEnhancer

InstanceEnhancer — это метод, который позволяет эффективно улучшать короткие аннотации, чтобы они лучше соответствовали нашей структуре аннотаций с учётом экземпляров. Мы используем двухступенчатую стратегию улучшения:

Расширение коротких аннотаций в более детализированные длинные аннотации.
Сегментация и улучшение конкретных экземпляров, сохраняя контекстуальную целостность и обеспечивая точное распознавание экземпляров.

Экспериментальные результаты

Мы провели серию экспериментов по оценке эффективности InstanceCap в сравнении с современными методами, такими как Panda-70M, ShareGPT4Video и MiraData. Для этого мы использовали 100 видеоклипов из наборов данных OpenVid-1M и Animal Kingdom, генерируя аннотации с помощью различных моделей аннотирования.

Оценка качества аннотаций

Мы применили несколько метрик для оценки качества аннотаций:

3DVAE Score: Используя 3DVAE, мы извлекаем представления из оригинальных видео и их восстановленных версий, чтобы количественно оценить перцептивное расстояние между ними.
CLIP Score: Мы сегментируем длинные аннотации на отдельные предложения и вычисляем схожесть между каждым предложением и каждым кадром оригинального видео.
Человеческая оценка: Мы провели исследование с участием экспертов для оценки качества аннотаций по двум аспектам: детализация экземпляров и показатели галлюцинаций.

Сравнение с современными моделями

Результаты показали, что InstanceCap значительно улучшает качество аннотаций по сравнению с другими методами, обеспечивая более высокую точность и меньшую вероятность галлюцинаций. Например, наши аннотации лучше сохраняли информацию о таких деталях, как "очки", "серый свитер" и "относительное положение двух человек", в то время как MiraData теряла эти важные детали.

Заключение

В данной статье мы представили InstanceCap — первый метод структурированных аннотаций с учётом экземпляров для генерации видео по тексту. Наш подход включает использование вспомогательных моделей для улучшения точности аннотаций и создание набора данных InstanceVid для обучения. Экспериментальные результаты показывают, что InstanceCap значительно улучшает качество генерации видео, обеспечивая высокую точность и минимизируя галлюцинации.

В будущем мы планируем применить InstanceCap к более крупным наборам данных и обучить более мощные модели T2V для расширения его влияния и применения в различных областях.

Статья на arxiv Оригинал pdf generation modeling training

Ай Дайджест