Свежая выжимка ml и AI статей - каждый день
В последнее время модели диффузии для генерации видео по тексту (T2V) показали впечатляющие результаты в создании фотореалистичных и разнообразных видеороликов. Однако, несмотря на эти достижения, такие модели часто сталкиваются с проблемами несоответствия между генерируемым видео и заданным текстовым описанием, особенно когда текстовые запросы включают сложные сцены с множеством объектов и атрибутов. В данной статье мы представляем ВИДЕОРЕМОНТ (VIDEO REPAIR), новую модельно-независимую, не требующую обучения, автоматическую систему уточнения, которая значительно улучшает выравнивание текста и видео.
ВИДЕОРЕМОНТ - это инновационный подход к улучшению качества видео, генерируемого по текстовому запросу, путем автоматического выявления и исправления несоответствий между видео и текстом. Эта система работает в четыре этапа:
На этом этапе ВИДЕОРЕМОНТ использует модель LLM (Large Language Model) для создания детализированных вопросов, которые помогают оценить соответствие генерируемого видео текстовому запросу. Эти вопросы могут касаться наличия, количества и атрибутов объектов в видео. Ответы на эти вопросы предоставляются с помощью MLLM (Multimodal Language Model), который анализирует видео и отвечает "да" или "нет", а также предоставляет количественную оценку соответствия.
После оценки видео, ВИДЕОРЕМОНТ определяет, какие объекты были точно сгенерированы и какие области видео требуют уточнения. Для этого используется информация из предыдущего этапа, где были выявлены ошибки в количестве объектов или их атрибутах. Система создает локализованные текстовые запросы для уточнения только тех частей видео, где обнаружены несоответствия.
С помощью комбинированного модуля для выделения и сегментации объектов, ВИДЕОРЕМОНТ разделяет видео на области, которые следует сохранить, и те, которые нужно перегенерировать. Это делается с использованием технологий, таких как Molmo для указания объектов и Semantic-SAM для их сегментации.
На последнем этапе ВИДЕОРЕМОНТ перегенерирует видео, используя оригинальную модель T2V, но с обновленным шумом и локализованными текстовыми запросами. Это позволяет сохранить правильно сгенерированные части видео и уточнить только те, где были обнаружены ошибки.
На двух популярных бенчмарках для генерации видео (EvalCrafter и T2V-CompBench), ВИДЕОРЕМОНТ показал значительное улучшение по сравнению с существующими методами уточнения. ВИДЕОРЕМОНТ не только улучшает точность соответствия текста и видео, но и сохраняет высокое качество видео, не требуя дополнительного обучения модели.
ВИДЕОРЕМОНТ представляет собой значительный шаг вперед в области генерации видео по тексту, предоставляя инструмент для автоматического и эффективного улучшения качества видео. Эта система способна выявлять и исправлять несоответствия на уровне деталей, что делает её полезной для широкого спектра приложений, от создания контента до автоматизации процессов в медиаиндустрии. Мы надеемся, что наша работа вдохновит на дальнейшие исследования в области автоматического уточнения в задачах визуальной генерации.