MoViE: Мобильная диффузия для видеомонтажа

С недавним прогрессом в области генеративных моделей на основе диффузии, возможности редактирования видео стали более доступными. Однако, несмотря на впечатляющие результаты, существующие методы остаются слишком сложными и ресурсоемкими для использования на мобильных устройствах. В данной статье мы рассмотрим модель MoViE, которая предлагает эффективные решения для редактирования видео на мобильных платформах, обеспечивая скорость 12 кадров в секунду при высоком качестве.

Основные концепции

Диффузионные модели

Диффузионные модели представляют собой класс генеративных моделей, которые обучаются на основе процесса добавления и удаления шума. Они работают, начиная с случайного шума и постепенно "очищая" его, чтобы получить конечное изображение или видео. Такой подход позволяет моделям эффективно захватывать сложные распределения данных и генерировать высококачественные визуальные результаты.

Проблемы редактирования видео

Редактирование видео с использованием диффузионных моделей сталкивается с несколькими основными проблемами:

Высокие вычислительные затраты: Большинство существующих моделей требуют значительных вычислительных ресурсов, что делает их непрактичными для мобильных устройств.
Необходимость в согласованности между кадрами: Изменения, внесенные в один кадр, должны быть последовательно отражены в следующих кадрах, что усложняет процесс редактирования.
Сложность архитектуры: Современные модели часто имеют сложные архитектуры, что увеличивает время обработки.

Архитектура MoViE

MoViE предлагает ряд оптимизаций для улучшения производительности и качества редактирования видео на мобильных устройствах:

Оптимизация архитектуры: Используется легковесный автоэнкодер, что позволяет значительно сократить количество операций с плавающей запятой (FLOPs) при редактировании.
Многоуровневая дистилляция: Расширение концепции дистилляции без классификатора на несколько модальностей позволяет сократить количество вычислений в три раза.
Сокращение шагов выборки: Введение новой схемы дистилляции на основе противостояния позволяет сократить количество шагов выборки до одного, сохраняя при этом управляемость процесса редактирования.

Эти оптимизации позволяют достигать скорости редактирования в 12 кадров в секунду на мобильных устройствах, таких как Xiaomi-14 Pro.

Подходы к редактированию видео

Базовая модель

MoViE использует существующую модель редактирования изображений, заменяя слои самовнимания на кросс-кадровое внимание для обеспечения согласованности между кадрами. Это позволяет модели обрабатывать информацию из нескольких кадров, что критически важно для редактирования видео.

Mobile-Pix2Pix

Для оптимизации производительности была разработана модель Mobile-Pix2Pix, которая удаляет ресурсоемкие слои самовнимания и кросс-внимания на высоких разрешениях. Это позволяет значительно сократить вычислительные затраты при редактировании.

Многоуровневая дистилляция

Дистилляция без классификатора (CFG) позволяет улучшить качество генеративных моделей, но требует выполнения нескольких прямых проходов на каждом шаге диффузии. MoViE использует многоуровневую дистилляцию, которая объединяет несколько модальностей (текст и изображение) в один проход, что существенно снижает вычислительные затраты.

Противостоящая дистилляция

Для дальнейшего сокращения вычислительных затрат используется противостоящая дистилляция, которая позволяет преобразовать многошаговую модель в одношаговую, сохраняя при этом управляемость редактирования. Это достигается за счет обучения модели-студента на основе модели-учителя, что позволяет сохранить качество редактирования.

Эксперименты и результаты

Настройка экспериментов

Для оценки эффективности модели MoViE использовались различные наборы данных, включая InstructPix2Pix. Метрики, такие как CLIP-сходство, использовались для оценки качества редактирования. Модель была протестирована на различных сценариях редактирования, чтобы продемонстрировать её универсальность и эффективность.

Результаты

MoViE продемонстрировала значительные улучшения по сравнению с существующими методами, такими как Fairy и TokenFlow. В частности, модель показала:

Скорость редактирования: 12 кадров в секунду на мобильных устройствах.
Снижение вычислительных затрат: до 73% по сравнению с аналогичными моделями.
Сохранение качества: высокое качество редактирования при минимальном снижении метрик.

Качественные результаты

Качественные результаты редактирования также были впечатляющими. MoViE смогла успешно выполнять как глобальные, так и детализированные изменения, сохраняя при этом высокую степень согласованности между кадрами.

Заключение

В данной работе была представлена модель MoViE, которая значительно улучшает возможности редактирования видео на мобильных устройствах. Оптимизации, такие как использование легковесного автоэнкодера, многоуровневая дистилляция и противостоящая дистилляция, позволяют достигать высокой скорости редактирования без значительных потерь в качестве. Эти достижения открывают новые горизонты для мобильного видеомонтажа, позволяя пользователям легко и быстро редактировать видео в реальном времени.

Статья на arxiv Оригинал pdf diffusion classifier editing

Ай Дайджест