ВИДЕОРЕМОНТ: Улучшение генерации видео по тексту через оценку несоответствий и локализованное уточнение

В последнее время модели диффузии для генерации видео по тексту (T2V) показали впечатляющие результаты в создании фотореалистичных и разнообразных видеороликов. Однако, несмотря на эти достижения, такие модели часто сталкиваются с проблемами несоответствия между генерируемым видео и заданным текстовым описанием, особенно когда текстовые запросы включают сложные сцены с множеством объектов и атрибутов. В данной статье мы представляем ВИДЕОРЕМОНТ (VIDEO REPAIR), новую модельно-независимую, не требующую обучения, автоматическую систему уточнения, которая значительно улучшает выравнивание текста и видео.

Что такое ВИДЕОРЕМОНТ?

ВИДЕОРЕМОНТ - это инновационный подход к улучшению качества видео, генерируемого по текстовому запросу, путем автоматического выявления и исправления несоответствий между видео и текстом. Эта система работает в четыре этапа:

Оценка видео: Определение несоответствий с помощью генерации и ответов на оценочные вопросы.
Планирование уточнений: Определение, какие объекты в видео следует сохранить, а какие уточнить.
Разделение областей: Сегментация видео на области, которые нужно сохранить и уточнить.
Локализованное уточнение: Перегенерация видео с учетом полученных планов уточнений.

Как работает ВИДЕОРЕМОНТ?

1. Оценка видео

На этом этапе ВИДЕОРЕМОНТ использует модель LLM (Large Language Model) для создания детализированных вопросов, которые помогают оценить соответствие генерируемого видео текстовому запросу. Эти вопросы могут касаться наличия, количества и атрибутов объектов в видео. Ответы на эти вопросы предоставляются с помощью MLLM (Multimodal Language Model), который анализирует видео и отвечает "да" или "нет", а также предоставляет количественную оценку соответствия.

2. Планирование уточнений

После оценки видео, ВИДЕОРЕМОНТ определяет, какие объекты были точно сгенерированы и какие области видео требуют уточнения. Для этого используется информация из предыдущего этапа, где были выявлены ошибки в количестве объектов или их атрибутах. Система создает локализованные текстовые запросы для уточнения только тех частей видео, где обнаружены несоответствия.

3. Разделение областей

С помощью комбинированного модуля для выделения и сегментации объектов, ВИДЕОРЕМОНТ разделяет видео на области, которые следует сохранить, и те, которые нужно перегенерировать. Это делается с использованием технологий, таких как Molmo для указания объектов и Semantic-SAM для их сегментации.

4. Локализованное уточнение

На последнем этапе ВИДЕОРЕМОНТ перегенерирует видео, используя оригинальную модель T2V, но с обновленным шумом и локализованными текстовыми запросами. Это позволяет сохранить правильно сгенерированные части видео и уточнить только те, где были обнаружены ошибки.

Результаты и преимущества

На двух популярных бенчмарках для генерации видео (EvalCrafter и T2V-CompBench), ВИДЕОРЕМОНТ показал значительное улучшение по сравнению с существующими методами уточнения. ВИДЕОРЕМОНТ не только улучшает точность соответствия текста и видео, но и сохраняет высокое качество видео, не требуя дополнительного обучения модели.

Заключение

ВИДЕОРЕМОНТ представляет собой значительный шаг вперед в области генерации видео по тексту, предоставляя инструмент для автоматического и эффективного улучшения качества видео. Эта система способна выявлять и исправлять несоответствия на уровне деталей, что делает её полезной для широкого спектра приложений, от создания контента до автоматизации процессов в медиаиндустрии. Мы надеемся, что наша работа вдохновит на дальнейшие исследования в области автоматического уточнения в задачах визуальной генерации.

Статья на arxiv Оригинал pdf evaluation feedback alignment

Ай Дайджест