Track4Gen: Улучшение генерации видео с помощью отслеживания точек

В последние годы модели генерации видео на основе диффузии достигли значительных успехов в создании визуально насыщенного и временно согласованного контента. Однако, несмотря на эти достижения, существует проблема "дрейфа внешности", когда визуальные элементы постепенно изменяются или деградируют в течение времени, что приводит к несоответствиям в объектах. Это явление заметно в видео, сгенерированных существующими моделями, такими как Stable Video Diffusion.

Проблема дрейфа внешности

Дрейф внешности — это проблема, с которой сталкиваются многие модели генерации видео. Например, в сгенерированных видео можно наблюдать, как рога коровы искажаются и меняются, что нарушает правдоподобие контента. Это противоречит тому, как люди воспринимают постоянство внешности объектов в реальном мире, что становится возможным благодаря наблюдению и взаимодействию с окружающей средой с раннего возраста.

Track4Gen: Решение проблемы

В данной статье мы представляем Track4Gen — пространственно осведомленную модель генерации видео, которая сочетает потери диффузии с отслеживанием точек между кадрами. Это обеспечивает улучшенное пространственное управление на уровне признаков. Мы объединяем задачи генерации видео и отслеживания точек в единую сеть, минимально изменяя существующие архитектуры генерации видео. Используя Stable Video Diffusion в качестве основы, Track4Gen демонстрирует, что возможно объединение генерации видео и отслеживания точек, которые обычно рассматриваются как отдельные задачи.

Связанные работы

Генерация видео на основе диффузии

Модели генерации видео на основе диффузии строятся на успешных подходах к синтезу изображений. Обычно они расширяют текстовые модели для изображений до видеодомена, интегрируя временные слои для взаимодействия между кадрами. Некоторые работы применяют каскадные подходы для создания как пространственно, так и временно высококачественных видео.

Основные модели как экстракторы признаков

Различные основные модели, такие как vision transformers или генераторы на основе диффузии, использовались в качестве экстракторов признаков для различных задач, включая семантическое соответствие, классификацию и сегментацию. В нашем исследовании мы также используем признаки, извлеченные из основной модели генерации видео для отслеживания точек.

Методология

Обзор Track4Gen

Track4Gen нацелен на использование отслеживания точек в качестве дополнительного сигнала для улучшения пространственного осознания признаков видео. Мы строим нашу архитектуру на основе предварительно обученной модели генерации видео, чтобы сохранить предшествующие знания и избежать прямого вмешательства в оригинальные признаки.

Архитектура

В Track4Gen вместо того, чтобы напрямую использовать сырые признаки диффузии для оценки соответствия, мы предлагаем модуль уточнения, который предназначен для улучшения сырых признаков, проецируя их в пространство признаков, богатое соответствиями. Уточненные признаки используются как для оценки отслеживания точек с явным управлением, так и для обратной передачи в генеративную основную модель.

Обучение модели

Track4Gen обучается с использованием стандартной потери диффузии, а также потерь отслеживания, основываясь на плотном наборе траекторий точек между кадрами. Мы извлекаем сырые признаки диффузии, передаем их через модуль уточнения и вычисляем стоимость объема, используя косинусное сходство.

Эксперименты

Подробности реализации

Для обучения Track4Gen мы создаем тренировочный набор, состоящий из 567 пар видео-траекторий. Мы используем оптический поток для генерации аннотаций траекторий, что позволяет нам обойти проблему отсутствия реальных видео с аннотациями.

Оценка производительности

Мы оцениваем Track4Gen для задачи генерации изображения в видео через серию экспериментов, используя несколько наборов данных, автоматизированные метрики и человеческие оценки. Track4Gen превосходит оригинальную Stable Video Diffusion по всем основным метрикам, включая FID и FVD.

Качественные результаты

Качественные сравнения с базовой моделью Stable Video Diffusion показывают, что Track4Gen генерирует видео с сильной консистентностью внешности, избегая проблем дрейфа внешности. Визуальные результаты показывают, что Track4Gen обеспечивает более высокую степень согласованности объектов в кадрах.

Заключение и будущее

Мы представили первую унифицированную структуру, которая объединяет две различные задачи: генерацию видео и плотное отслеживание точек. Track4Gen демонстрирует, что возможно создание временно согласованных представлений признаков и видео с постоянством внешности. Однако, несмотря на значительные улучшения, сгенерированные видео могут демонстрировать менее динамичное движение по сравнению с другими генераторами видео. В будущем мы планируем исследовать возможности использования реальных видео, автоматически аннотированных с помощью продвинутых трекеров, а также рассмотреть условную генерацию видео с использованием отслеживания точек для управления движениями.

Статья на arxiv Оригинал pdf diffusion supervision evaluation

Ай Дайджест