Эффективная токенизация длинных видеороликов с помощью координатно-основанной реконструкции патчей

В современном мире, где объемы видеоданных растут с невероятной скоростью, задача эффективной обработки и анализа видео становится все более актуальной. Одним из ключевых элементов в этой области является токенизация видео, процесс преобразования видео в более компактные и управляемые представления, которые могут быть использованы для различных задач машинного обучения, таких как классификация, генерация и анализ видео. В данной статье мы рассмотрим новаторский подход к токенизации длинных видеороликов, известный как CoordTok, который обещает значительно улучшить эффективность и качество обработки видео.

Токенизация видео остается одной из наиболее сложных задач в области компьютерного зрения, особенно когда речь идет о длинных видеороликах. Традиционные методы, основанные на обработке каждого кадра отдельно, не могут эффективно использовать временную когерентность видео, что приводит к высоким затратам на обучение и менее эффективной компрессии. CoordTok предлагает решение, позволяющее обучать токенизаторы на длинных видео, используя координатно-основанную реконструкцию патчей, что значительно снижает количество токенов, необходимых для кодирования видео, и улучшает качество реконструкции.

Основные идеи CoordTok

Координатно-основанная реконструкция

CoordTok использует концепцию координатно-основанной реконструкции, вдохновленную успехами в области 3D генеративных моделей. Вместо того чтобы реконструировать все кадры видео одновременно, что требует огромных вычислительных ресурсов, CoordTok обучает модель предсказывать патчи видео на основе их координат в пространстве и времени. Это позволяет:

Снизить вычислительные затраты: Модель обучается на случайно выбранных координатах, что значительно уменьшает объем данных для обработки.
Улучшить временную когерентность: Использование координат позволяет модели лучше понимать и использовать временные связи между кадрами.
Повысить масштабируемость: CoordTok может обрабатывать видео любой длины, что делает его идеальным для работы с длинными видеороликами.

Трипланарные представления

CoordTok кодирует видео в трипланарные представления, которые состоят из трех плоскостей:

xy-плоскость: Каптит глобальное содержание видео (расположение и внешний вид сцены или объектов).
yt-плоскость и xt-плоскость: Захватывают движение видео по двум пространственным осям.

Эти представления позволяют эффективно кодировать видео, используя всего три 2D плана вместо традиционных 3D латентов, что значительно снижает требования к памяти и вычислениям.

Обучение и реконструкция

Энкодер: Видео разбивается на неперекрывающиеся пространственно-временные патчи, которые затем обрабатываются через серию трансформерных слоев для получения видеофичей. Эти фичи затем кодируются в трипланарные представления.
Декодер: Используя трипланарные представления, декодер учится предсказывать пиксели патчей на основе случайно выбранных координат (x, y, t). Это позволяет избежать необходимости реконструировать все кадры видео одновременно, что делает процесс обучения более эффективным.

Эксперименты и результаты

Эксперименты, проведенные на датасете UCF-101, показали, что CoordTok может значительно уменьшить количество токенов, необходимых для кодирования длинных видео. Например, CoordTok может закодировать 128-кадровое видео с разрешением 128x128 в всего 1280 токенов, в то время как базовые модели требуют 6144 или 8192 токенов для достижения аналогичного качества реконструкции. Это подчеркивает эффективность подхода CoordTok.

Кроме того, CoordTok позволяет обучать модели генерации видео, такие как диффузионные трансформеры, на длинных видео, что ранее было затруднительно из-за ограничений по памяти. Это открывает новые возможности для создания более сложных и динамичных видеогенераторов.

Заключение

CoordTok представляет собой значительный шаг вперед в области токенизации видео. Его способность эффективно обрабатывать длинные видеоролики, используя координатно-основанную реконструкцию патчей, делает его мощным инструментом для будущих исследований и разработок в области машинного зрения и обработки видео. Уменьшение количества токенов и улучшение качества реконструкции видео не только снижает вычислительные затраты, но и открывает двери для новых приложений в анализе и генерации видео.

Статья на arxiv Оригинал pdf tokenization videos training