VidTok: Современный видеотокенизатор для генерации и понимания видео

В последние годы визуальная генерация и понимание стали важными направлениями исследований, благодаря способности визуальных данных предоставлять богатую семантическую информацию и создавать захватывающие впечатления. Однако высокая степень избыточности, присущая представлениям на уровне пикселей, привела к необходимости разработки более эффективных методов обработки видео. Одним из таких методов является видеотокенизация, которая преобразует сырые визуальные данные в компактные латентные токены. Это позволяет значительно сократить объем данных, необходимый для выполнения задач генерации и понимания видео.

В данной статье мы рассмотрим VidTok — универсальный и открытый видеотокенизатор, который демонстрирует передовые результаты как в непрерывной, так и в дискретной токенизации видео. VidTok включает несколько ключевых усовершенствований по сравнению с существующими подходами, что позволяет ему достигать значительных улучшений в производительности.

Основные концепции VidTok

1. Архитектура модели

VidTok использует комбинированный подход к обработке пространственных и временных данных, что позволяет значительно снизить вычислительную сложность без потери качества реконструкции. В частности, в VidTok применяются 2D-сверточные слои для пространственной выборки и модуль AlphaBlender для временной выборки. Остальные компоненты модели используют 3D-сверточные слои для выполнения слияния информации.

2. Совершенствованные техники квантования

Для решения проблем, связанных с нестабильностью обучения и коллапсом кодовой книги, часто встречающихся в традиционном векторном квантовании (VQ), VidTok использует метод конечного скалярного квантования (FSQ). Этот подход оптимизирует неявную кодовую книгу напрямую, что значительно улучшает качество дискретной токенизации.

3. Улучшенные стратегии обучения

VidTok применяет двухэтапную стратегию обучения. На первом этапе модель предварительно обучается на видео низкого разрешения, а на втором этапе происходит тонкая настройка декодера на видео высокого разрешения. Кроме того, использование обучающих данных с уменьшенной частотой кадров улучшает способность модели представлять динамику движения.

Связанные работы

Дискретная видеотокенизация

Дискретная токенизация преобразует входные изображения в латентное пространство и квантует латентные представления с использованием кодовой книги векторов. В отличие от непрерывных токенов, дискретные токены помогают уменьшить накопление ошибок в процессе автогенерации. Современные подходы, такие как VQ-VAE и MAGVIT-v2, используют дискретную токенизацию для управления временными избыточностями в видеопоследовательностях.

Непрерывная видеотокенизация

Непрерывная токенизация, как правило, обеспечивает более высокую точность реконструкции и используется в сочетании с техниками моделирования непрерывного пространства, такими как диффузионные модели. Примеры таких подходов включают OpenAI Sora и CV-VAE. Эти методы эффективно сжимают визуальные данные в непрерывное латентное представление и обрабатывают его с использованием методов денойзинга.

Структура VidTok

VidTok состоит из нескольких ключевых компонентов, включая кодировщик, декодер и регуляризатор. Кодировщик преобразует видео данные в компактные латентные токены, а декодер восстанавливает токены обратно в пиксельное пространство. В зависимости от сценария, латентные токены могут быть как непрерывными, так и дискретными.

Архитектура модели

VidTok демонстрирует высокую эффективность благодаря использованию 2D и 1D сверток для пространственной и временной выборки, что позволяет снизить вычислительные затраты. Важно отметить, что в VidTok сохранены 3D-свертки для эффективного представления пространственно-временной информации.

Метод конечного скалярного квантования (FSQ)

FSQ представляет собой метод, который позволяет каждому скалярному элементу в латентном представлении независимо квантоваться до ближайшего предопределенного скалярного значения. Это устраняет необходимость в обучении кодовой книги, что значительно улучшает стабильность обучения и качество реконструкции.

Двухэтапная стратегия обучения

Двухэтапная стратегия обучения VidTok позволяет существенно сократить вычислительные затраты. На первом этапе модель обучается на низком разрешении, а на втором — производится тонкая настройка на высоком разрешении. Это обеспечивает сохранение совместимости латентного пространства между моделями с различным разрешением.

Эксперименты и результаты

Эксперименты показывают, что VidTok превосходит существующие модели как в дискретной, так и в непрерывной токенизации. Мы сравнили производительность VidTok с несколькими современными видеотокенизаторами, такими как MAGVIT-v2 и OmniTokenizer, и результаты подтвердили его эффективность.

Настройки экспериментов

Для обучения использовался собранный набор видео, состоящий из двух подмножеств: одно с низким разрешением и другое с высоким. Оценка производительности проводилась с использованием нескольких общепринятых метрик, таких как PSNR, SSIM, LPIPS и FVD.

Сравнение с базовыми моделями

VidTok продемонстрировал значительно лучшие результаты по всем метрикам, что подтверждает его преимущества в производительности по сравнению с существующими решениями. Например, VidTok с использованием FSQ показал более высокие значения PSNR и SSIM при меньшем значении LPIPS и FVD.

Абляционные эксперименты

Абляционные эксперименты подтвердили, что предложенная архитектура модели, усовершенствованные методы квантования и стратегии обучения значительно влияют на общую производительность. Особое внимание было уделено влиянию различных методов квантования и регуляризации на качество реконструкции.

Заключение

VidTok представляет собой универсальный и открытый видеотокенизатор, который достигает передовых результатов как в непрерывной, так и в дискретной токенизации. Благодаря преобразованию сырых визуальных данных в компактные латентные токены, VidTok предоставляет эффективную основу для задач, связанных с визуальной генерацией и пониманием. Внедрение усовершенствований в архитектуру модели, дискретные представления и стратегии обучения позволяет VidTok значительно превзойти существующие методы.

Наша работа направлена на то, чтобы вдохновить дальнейшие исследования в этой области и предоставить сообществу мощный инструмент для разработки новых решений в области обработки видео.

Статья на arxiv Оригинал pdf performance tokenization encoding

Ай Дайджест