LinGen: Высококачественная генерация видео с линейной вычислительной сложностью

Генерация видео на основе текста является одной из самых захватывающих областей в искусственном интеллекте, которая открывает новые горизонты для креативного контента. Однако существующие модели, такие как Diffusion Transformers (DiTs), сталкиваются с серьезными ограничениями из-за высокой вычислительной нагрузки, которая возрастает квадратично с увеличением разрешения и длины видео. Это ограничивает большинство современных моделей до генерации видео длиной 10-20 секунд. В этой статье мы рассмотрим новый подход, предложенный в работе "LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity", который позволяет создавать видео длиной до минуты с линейной сложностью вычислений.

Проблема и необходимость

Основные проблемы, с которыми сталкиваются существующие модели генерации видео, связаны с двумя аспектами:

Высокая сложность предсказания значений миллионов пикселей. Генерация видео требует обработки огромного количества данных, что делает процесс крайне ресурсоемким.
Чувствительность человеческого глаза к несоответствиям между кадрами. Даже небольшие артефакты или несоответствия могут существенно снизить качество воспринимаемого видео.

Модели, такие как Sora и MovieGen, достигают высокой согласованности в генерации видео, увеличивая количество параметров до десятков миллиардов. Однако, как уже упоминалось, это приводит к квадратичной сложности и делает процесс генерации длинных видео крайне затратным.

LinGen: Новый подход

Архитектура LinGen

LinGen представляет собой новый фреймворк для генерации видео на основе текста, который позволяет достигать высококачественной генерации видео длиной до минуты при линейной вычислительной сложности. Это достигается путем замены вычислительно сложных блоков самовнимания (self-attention) на линейные блоки, называемые MATE (MA-branch и TE-branch).

MA-branch (Multi-Scale Attention Branch): Этот блок нацелен на корреляции от короткой до длинной дистанции и включает в себя двунаправленный блок Mamba2 вместе с методом перестановки токенов, известным как Rotary Major Scan (RMS), и токены обзора (review tokens).
TE-branch (Temporal Attention Branch): Этот блок, названный TEmporal Swin Attention (TESA), фокусируется на временных корреляциях между соседними токенами и средне-дистанционными токенами.

Эта архитектура позволяет LinGen эффективно обрабатывать как пространственные, так и временные зависимости, улучшая согласованность и качество сгенерированных видео.

Преимущества LinGen

Линейная сложность: LinGen позволяет значительно снизить вычислительные затраты, что делает его подходящим для генерации видео на одном GPU без потери качества.
Улучшенное качество видео: Эксперименты показывают, что LinGen превосходит DiT по качеству видео с выигрышем до 75.6% в сравнении с существующими моделями.
Сравнительная эффективность: LinGen демонстрирует уменьшение вычислительных затрат до 15 раз (в 11.5 раз по времени отклика) по сравнению с DiT.

Методология

Процесс генерации

LinGen использует дизайн временного автоэнкодера, который включает в себя модули денойзинга, основанные на методах Flow Matching и линейно-квадратичном t-распределении. Блоки MATE заменяют слои самовнимания в DiTs, что позволяет достичь линейной сложности вычислений.

MA-branch

MA-branch включает в себя:

Блок Mamba2: Этот блок обеспечивает двунаправленное внимание, что позволяет эффективно обрабатывать корреляции между токенами.
Метод Rotary Major Scan: Этот метод помогает сохранить близость токенов, что критически важно для генерации видео.
Токены обзора: Эти токены используются для калибровки длинных корреляций, что позволяет улучшить качество генерации.

TE-branch

TE-branch использует TESA, который:

Делит токен-тензор на небольшие окна и вычисляет внимание внутри каждого окна.
Сдвигает окна в разных слоях, что позволяет установить связи между токенами в соседних окнах и увеличивает поле восприятия.

Обучение

LinGen обучается с использованием прогрессивного подхода, начиная с задачи генерации изображений, а затем переходя к видео. Это позволяет модели адаптироваться к более сложным задачам, сохраняя при этом высокое качество генерации.

Экспериментальные результаты

Эффективность

Эксперименты показывают, что LinGen значительно превосходит DiT по вычислительной эффективности. Например, при генерации видео разрешением 512p длиной 17 секунд LinGen демонстрирует скорость генерации, в 5 раз превышающую таковую у DiT.

Сравнение качества

Сравнение качества видео, сгенерированного LinGen и другими современными моделями, показывает, что LinGen достигает сопоставимого качества при меньших вычислительных затратах. Это подтверждается как автоматическими метриками, так и оценками в ходе человеческих экспериментов.

Адаптация к длинным последовательностям

LinGen быстрее адаптируется к длинным последовательностям токенов по сравнению с DiT, что позволяет ему более эффективно справляться с задачами генерации видео большой длины.

Ablation Studies

Проведенные абляционные эксперименты подтвердили эффективность каждого из компонентов LinGen, включая блоки TESA и RMS, а также использование токенов обзора и гибридного обучения.

Заключение

Работа LinGen представляет собой значительный шаг вперед в области генерации видео на основе текста. С линейной сложностью вычислений и улучшенным качеством видео, LinGen открывает новые возможности для создания высококачественного контента. Эта модель не только улучшает качество генерации, но и делает процесс более доступным для использования на стандартных GPU, что может привести к более широкому применению технологий генерации видео в различных областях, от кино до интерактивных медиа.

LinGen прокладывает путь к созданию полноформатных фильмов и интерактивной генерации видео в реальном времени, что является важным шагом в развитии технологий искусственного интеллекта.

Статья на arxiv Оригинал pdf attention complexity generation

Ай Дайджест