Спатиально-временное пропускное руководство для улучшенной диффузии видео

Современные модели диффузии стали мощным инструментом для генерации высококачественных изображений, видео и 3D-контента. Эти модели работают на основе процесса, который постепенно удаляет шум из случайных данных, восстанавливая оригинальное распределение данных. Однако, несмотря на их успех, существует ряд проблем, связанных с качеством и разнообразием генерируемых образцов. В данной статье мы рассмотрим новую методику, предложенную в работе "Spatiotemporal Skip Guidance" (STG), которая направлена на улучшение качества видео, генерируемого с помощью моделей диффузии, без необходимости дополнительного обучения.

Проблемы существующих методов

Текущие методы, такие как Classifier-Free Guidance (CFG) и Autoguidance, используют слабые модели для улучшения качества образцов. Тем не менее, CFG часто приводит к снижению разнообразия и насыщенности результатов, что может привести к получению слишком простых или однообразных изображений. Autoguidance, с другой стороны, требует дополнительного обучения, что делает его непрактичным для больших моделей.

Другие методы, такие как Perturbed Attention Guidance (PAG) и Smoothed Energy Guidance (SEG), используют самопомехи для имитации слабой модели, однако они в основном предназначены для моделей генерации изображений, которые работают с 2D-пространственными картами внимания. В отличие от них, STG предлагает новый подход, который учитывает как пространственные, так и временные аспекты видео.

Основные концепции STG

STG представляет собой простую и эффективную методику, которая улучшает производительность моделей диффузии видео, применяя пропускные механизмы на уровне слоев. Основная идея заключается в том, чтобы использовать неявную слабую модель, имитируя ее через самопомехи, что позволяет избежать необходимости в дополнительных моделях и обучении.

Непосредственное использование слабой модели

В STG слабая модель создается путем пропуска определенных слоев в модели диффузии. Это позволяет сформировать "согласованную" версию оригинальной модели, которая, хотя и генерирует образцы с более низким качеством, сохраняет структуру и динамику оригинальной модели. Таким образом, STG позволяет улучшить качество генерируемых образцов, не снижая их разнообразия.

Применение спатиально-временных искажений

Ключевым компонентом STG является применение спатиально-временных искажений на уровнях внимания. Это позволяет эффективно пропускать определенные слои, создавая версию модели с пониженным качеством, которая все еще сохраняет согласованность с оригинальной моделью. Это достигается за счет использования как пространственных, так и временных слоев, что является важным для обработки видео.

Поддержание разнообразия и динамики

Одним из значительных преимуществ STG является его способность поддерживать разнообразие и динамику генерируемых видео. Это достигается благодаря использованию методов ресcaling (масштабирование) и перезапуска, которые помогают контролировать отклонения в выборке и предотвращают выход образцов за пределы манипуляций с данными.

Эксперименты и результаты

В работе были проведены эксперименты с тремя различными моделями: Mochi, Open-Sora и SVD. Эти модели были выбраны для оценки эффективности STG на различных архитектурах. Результаты показали, что STG значительно улучшает качество видео по сравнению с CFG, обеспечивая более четкие и яркие кадры, а также уменьшая временную несогласованность и мерцание.

Количественный анализ

Используя метрики, такие как Fréchet Video Distance (FVD) и Inception Score (IS), были получены количественные результаты, которые подтверждают, что STG превосходит CFG по всем критериям. Например, для модели SVD, применение STG привело к снижению FVD и повышению IS, что свидетельствует о более высоком качестве и разнообразии генерируемых образцов.

Качественные сравнения

Визуальный анализ видео, созданных с использованием STG, показал, что они обладают большей четкостью и динамичностью по сравнению с видео, созданными с использованием CFG. STG также продемонстрировала способность сохранять структуру объектов в динамичных сценах, что является критически важным для генерации качественного контента.

Заключение

Метод STG представляет собой значительный шаг вперед в области генерации видео с использованием моделей диффузии. Он предлагает простую и эффективную альтернативу существующим методам, позволяя улучшать качество видео без необходимости в дополнительном обучении. Благодаря своей способности поддерживать разнообразие и динамику генерируемых образцов, STG открывает новые возможности для применения в различных областях, включая создание контента для кино, игр и виртуальной реальности.

В целом, работа STG подчеркивает важность дальнейших исследований в области генеративных моделей и их применения в реальных сценариях.

Статья на arxiv Оригинал pdf quality diffusion guidance

Ай Дайджест