Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

WF-VAE: Улучшение Видео VAE с помощью Энергетического Потока на Основе Вейвлетов для Моделей Диффузии Видео в Латентном Пространстве

С недавним развитием моделей генерации видео, таких как Sora от OpenAI, область синтеза фотореалистичных видео получила значительное внимание. Среди этих моделей, вариационные автокодировщики (VAE) стали важным компонентом для снижения затрат на обучение. Однако с увеличением разрешения и продолжительности генерируемых видео, стоимость кодирования видео с помощью VAE становится узким местом при обучении моделей диффузии видео в латентном пространстве (LVDM).

Проблемы существующих подходов

Современные видео VAE, как правило, используют полностью свёрточные архитектуры, заимствованные из эпохи изображений. Эти модели пытаются решить проблемы с мерцанием видео и избыточной информацией, интегрируя пространственно-временные слои взаимодействия и сжатия. Однако такие подходы требуют значительных вычислительных ресурсов, что ограничивает их практическое применение.

Многие из существующих методов, такие как OD-VAE и CogVideoX, используют блочные стратегии вывода для обработки видео. Это приводит к разрывам в латентном пространстве при обработке длинных видео. В результате, необходимо разработать более эффективные методы кодирования, которые бы использовали вейвлет-преобразования для декомпозиции видео на различные компоненты частоты.

WF-VAE: Концепция и Архитектура

Мы предлагаем WF-VAE, новый автокодировщик, который использует многоуровневое вейвлет-преобразование для извлечения многоуровневых пирамидальных признаков. Основная идея заключается в создании главного энергетического потока, который позволяет низкочастотной информации плавно переходить в латентное представление.

Многоуровневое Вейвлет-преобразование

Вейвлет-преобразование позволяет декомпозировать видео на несколько компонент частоты, выделяя важные детали и упрощая процесс кодирования. Мы используем вейвлет-преобразование Хаара, которое эффективно захватывает пространственно-временную информацию, применяя два фильтра: низкочастотный и высокочастотный.

Формально, для видео-сигнала ( V \in \mathbb{R}^{c \times t \times h \times w} ), где ( c ), ( t ), ( h ), и ( w ) обозначают количество каналов, временные кадры, высоту и ширину соответственно, вейвлет-преобразование на слое ( l ) определяется следующим образом:

[ S(l)_{ijk} = S(l-1) * (f_i \otimes f_j \otimes f_k) ]

где ( f_i, f_j, f_k ) представляют собой фильтры, применяемые вдоль каждого измерения.

Энергетический Поток

В WF-VAE мы создаем энергетический поток, который позволяет низкочастотной информации напрямую поступать в латентное представление, минуя основной свёрточный блок. Это позволяет значительно снизить вычислительные затраты, сохраняя при этом высокое качество реконструкции видео.

Метод CausalCache

Чтобы поддерживать целостность латентного пространства во время блочного вывода, мы вводим механизм, называемый CausalCache. Этот метод использует свойства каузальной свёртки и обеспечивает непрерывность свёрточного окна, что позволяет избежать артефактов и мерцания в реконструированных видео.

Принцип работы CausalCache

CausalCache работает следующим образом: каждый временной блок кеширует свои хвостовые кадры для следующего блока, что обеспечивает непрерывность обработки. Это позволяет избежать потерь информации и сохранить качество при блочном выводе.

Экспериментальные Результаты

Мы провели обширные эксперименты, чтобы оценить эффективность WF-VAE по сравнению с существующими моделями VAE. Используя наборы данных Kinetics-400, Panda70M и WebVid-10M, мы оценивали производительность модели по различным метрикам, таким как PSNR, LPIPS и FVD.

Сравнение с Базовыми Моделями

WF-VAE демонстрирует значительно лучшие результаты по сравнению с другими моделями VAE, такими как OD-VAE и Allegro. Например, WF-VAE-S достигает 2-кратного увеличения пропускной способности и в 4 раза меньшего потребления памяти, сохраняя при этом конкурентоспособное качество реконструкции.

Заключение

WF-VAE представляет собой значительный шаг вперед в области видео VAE, предлагая эффективный подход к кодированию видео с использованием вейвлет-преобразований и механизма CausalCache. Эти нововведения позволяют значительно снизить вычислительные затраты при обучении моделей диффузии видео в латентном пространстве, что открывает новые возможности для дальнейших исследований и разработок в области генерации видео.

Будущие Направления

Хотя WF-VAE уже демонстрирует выдающиеся результаты, в будущем мы планируем оптимизировать архитектуру, чтобы уменьшить избыточность параметров и улучшить производительность. Это может включать в себя дальнейшую оптимизацию механизма CausalCache и улучшение структуры декодера для повышения качества генерации видео.

Таким образом, WF-VAE не только решает текущие проблемы, но и создает основу для будущих достижений в области генерации видео и машинного обучения в целом.