Генерация длинных видео с помощью диффузионных моделей: Применение сегментированного кросс-аттеншна и кураторство данных

Современные подходы к генерации видео на основе текстовых подсказок достигли значительных успехов благодаря использованию диффузионных моделей. Однако большинство существующих моделей ограничены в создании коротких видеоклипов, что ограничивает их выразительность и богатство контента. В данной статье мы рассмотрим новый подход к генерации длинных видео, представленный в работе "Presto", который использует сегментированный кросс-аттеншн и кураторство данных для создания 15-секундных видео с богатым содержанием и долгосрочной согласованностью.

Проблематика генерации длинных видео

Генерация длинных видео представляет собой сложную задачу, требующую от моделей не только создания разнообразного контента, но и поддержания согласованности между сценами на протяжении всего видео. Ранее предложенные методы часто использовали интерполяцию или экстраполяцию коротких клипов, что ограничивало их возможности. Другие подходы добавляли новые модули для увеличения длины видео, но это приводило к проблемам с распространением ошибок.

Для успешной генерации длинных видео необходимо учитывать разнообразие контента и долгосрочную согласованность. Важно не только использовать одну длинную подсказку, но и интегрировать несколько текстов, что позволяет модели генерировать более богатые видео и обеспечивает плавные переходы между сценами.

Подход Presto

Сегментированный кросс-аттеншн (SCA)

Модель Presto предлагает уникальный подход к генерации длинных видео, основанный на сегментированном кросс-аттеншне (SCA). Эта стратегия делит скрытые состояния модели на сегменты по временной оси, позволяя каждому сегменту взаимодействовать с соответствующей подсказкой. Это позволяет модели эффективно обрабатывать несколько прогрессивных текстовых условий без необходимости добавления дополнительных параметров.

SCA включает три стратегии: изолированный сегментированный кросс-аттеншн (ISCA), последовательный сегментированный кросс-аттеншн (SSCA) и перекрывающийся сегментированный кросс-аттеншн (OSCA). Эксперименты показали, что OSCA значительно улучшает богатство контента и долгосрочную согласованность в генерируемых видео.

Датасет LongTake-HD

Для обучения модели Presto был создан датасет LongTake-HD, состоящий из 261 000 высококачественных видео с богатым содержанием и долгосрочной согласованностью. Каждое видео сопровождается общей подсказкой и пятью прогрессивными подкатегориями, что позволяет модели лучше понимать контекст и динамику сцен.

Процесс кураторства данных включает в себя фильтрацию видео по различным критериям, таким как продолжительность, качество изображения и эстетика. Это обеспечивает высокое качество данных и позволяет модели эффективно обучаться.

Эксперименты и результаты

Оценка производительности

Модель Presto была протестирована на различных метриках, включая VBench Semantic Score и Dynamic Degree. Результаты показали, что Presto достигает 78,5% по VBench и 100% по Dynamic Degree, что превосходит существующие модели на рынке, такие как Allegro и Gen-3. Эти результаты подтверждают, что Presto эффективно захватывает динамику и сложные текстовые детали, создавая видео с богатым содержанием.

Качественная оценка

Качественные оценки проводились с участием пользователей, которые сравнивали видео, сгенерированные Presto, с видео, созданными другими моделями. Результаты показали, что Presto превосходит конкурентов по таким параметрам, как разнообразие сценариев, согласованность сцен и соответствие тексту.

Заключение

Модель Presto представляет собой значительный шаг вперед в области генерации длинных видео, обеспечивая богатое содержание и долгосрочную согласованность. Использование сегментированного кросс-аттеншна и создание высококачественного датасета LongTake-HD позволяют модели эффективно обрабатывать сложные текстовые подсказки и создавать реалистичные видео. В будущем планируется дальнейшее исследование механизмов внимания и структуры модели для улучшения генерации длинных видео.

Перспективы

Работа над Presto открывает новые горизонты для генерации видео на основе текстовых подсказок. Важно продолжать исследовать возможности интеграции различных типов данных и улучшения механизмов внимания, чтобы повысить качество и выразительность генерируемого контента.

Статья на arxiv Оригинал pdf diffusion dataset generation

Ай Дайджест