Свежая выжимка ml и AI статей - каждый день
Генерация видео на основе текста является одной из самых захватывающих областей в искусственном интеллекте, которая открывает новые горизонты для креативного контента. Однако существующие модели, такие как Diffusion Transformers (DiTs), сталкиваются с серьезными ограничениями из-за высокой вычислительной нагрузки, которая возрастает квадратично с увеличением разрешения и длины видео. Это ограничивает большинство современных моделей до генерации видео длиной 10-20 секунд. В этой статье мы рассмотрим новый подход, предложенный в работе "LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity", который позволяет создавать видео длиной до минуты с линейной сложностью вычислений.
Основные проблемы, с которыми сталкиваются существующие модели генерации видео, связаны с двумя аспектами:
Модели, такие как Sora и MovieGen, достигают высокой согласованности в генерации видео, увеличивая количество параметров до десятков миллиардов. Однако, как уже упоминалось, это приводит к квадратичной сложности и делает процесс генерации длинных видео крайне затратным.
LinGen представляет собой новый фреймворк для генерации видео на основе текста, который позволяет достигать высококачественной генерации видео длиной до минуты при линейной вычислительной сложности. Это достигается путем замены вычислительно сложных блоков самовнимания (self-attention) на линейные блоки, называемые MATE (MA-branch и TE-branch).
MA-branch (Multi-Scale Attention Branch): Этот блок нацелен на корреляции от короткой до длинной дистанции и включает в себя двунаправленный блок Mamba2 вместе с методом перестановки токенов, известным как Rotary Major Scan (RMS), и токены обзора (review tokens).
TE-branch (Temporal Attention Branch): Этот блок, названный TEmporal Swin Attention (TESA), фокусируется на временных корреляциях между соседними токенами и средне-дистанционными токенами.
Эта архитектура позволяет LinGen эффективно обрабатывать как пространственные, так и временные зависимости, улучшая согласованность и качество сгенерированных видео.
LinGen использует дизайн временного автоэнкодера, который включает в себя модули денойзинга, основанные на методах Flow Matching и линейно-квадратичном t-распределении. Блоки MATE заменяют слои самовнимания в DiTs, что позволяет достичь линейной сложности вычислений.
MA-branch включает в себя:
TE-branch использует TESA, который:
LinGen обучается с использованием прогрессивного подхода, начиная с задачи генерации изображений, а затем переходя к видео. Это позволяет модели адаптироваться к более сложным задачам, сохраняя при этом высокое качество генерации.
Эксперименты показывают, что LinGen значительно превосходит DiT по вычислительной эффективности. Например, при генерации видео разрешением 512p длиной 17 секунд LinGen демонстрирует скорость генерации, в 5 раз превышающую таковую у DiT.
Сравнение качества видео, сгенерированного LinGen и другими современными моделями, показывает, что LinGen достигает сопоставимого качества при меньших вычислительных затратах. Это подтверждается как автоматическими метриками, так и оценками в ходе человеческих экспериментов.
LinGen быстрее адаптируется к длинным последовательностям токенов по сравнению с DiT, что позволяет ему более эффективно справляться с задачами генерации видео большой длины.
Проведенные абляционные эксперименты подтвердили эффективность каждого из компонентов LinGen, включая блоки TESA и RMS, а также использование токенов обзора и гибридного обучения.
Работа LinGen представляет собой значительный шаг вперед в области генерации видео на основе текста. С линейной сложностью вычислений и улучшенным качеством видео, LinGen открывает новые возможности для создания высококачественного контента. Эта модель не только улучшает качество генерации, но и делает процесс более доступным для использования на стандартных GPU, что может привести к более широкому применению технологий генерации видео в различных областях, от кино до интерактивных медиа.
LinGen прокладывает путь к созданию полноформатных фильмов и интерактивной генерации видео в реальном времени, что является важным шагом в развитии технологий искусственного интеллекта.