Свежая выжимка ml и AI статей - каждый день
С недавним прогрессом в области генеративных моделей на основе диффузии, возможности редактирования видео стали более доступными. Однако, несмотря на впечатляющие результаты, существующие методы остаются слишком сложными и ресурсоемкими для использования на мобильных устройствах. В данной статье мы рассмотрим модель MoViE, которая предлагает эффективные решения для редактирования видео на мобильных платформах, обеспечивая скорость 12 кадров в секунду при высоком качестве.
Диффузионные модели представляют собой класс генеративных моделей, которые обучаются на основе процесса добавления и удаления шума. Они работают, начиная с случайного шума и постепенно "очищая" его, чтобы получить конечное изображение или видео. Такой подход позволяет моделям эффективно захватывать сложные распределения данных и генерировать высококачественные визуальные результаты.
Редактирование видео с использованием диффузионных моделей сталкивается с несколькими основными проблемами:
MoViE предлагает ряд оптимизаций для улучшения производительности и качества редактирования видео на мобильных устройствах:
Эти оптимизации позволяют достигать скорости редактирования в 12 кадров в секунду на мобильных устройствах, таких как Xiaomi-14 Pro.
MoViE использует существующую модель редактирования изображений, заменяя слои самовнимания на кросс-кадровое внимание для обеспечения согласованности между кадрами. Это позволяет модели обрабатывать информацию из нескольких кадров, что критически важно для редактирования видео.
Для оптимизации производительности была разработана модель Mobile-Pix2Pix, которая удаляет ресурсоемкие слои самовнимания и кросс-внимания на высоких разрешениях. Это позволяет значительно сократить вычислительные затраты при редактировании.
Дистилляция без классификатора (CFG) позволяет улучшить качество генеративных моделей, но требует выполнения нескольких прямых проходов на каждом шаге диффузии. MoViE использует многоуровневую дистилляцию, которая объединяет несколько модальностей (текст и изображение) в один проход, что существенно снижает вычислительные затраты.
Для дальнейшего сокращения вычислительных затрат используется противостоящая дистилляция, которая позволяет преобразовать многошаговую модель в одношаговую, сохраняя при этом управляемость редактирования. Это достигается за счет обучения модели-студента на основе модели-учителя, что позволяет сохранить качество редактирования.
Для оценки эффективности модели MoViE использовались различные наборы данных, включая InstructPix2Pix. Метрики, такие как CLIP-сходство, использовались для оценки качества редактирования. Модель была протестирована на различных сценариях редактирования, чтобы продемонстрировать её универсальность и эффективность.
MoViE продемонстрировала значительные улучшения по сравнению с существующими методами, такими как Fairy и TokenFlow. В частности, модель показала:
Качественные результаты редактирования также были впечатляющими. MoViE смогла успешно выполнять как глобальные, так и детализированные изменения, сохраняя при этом высокую степень согласованности между кадрами.
В данной работе была представлена модель MoViE, которая значительно улучшает возможности редактирования видео на мобильных устройствах. Оптимизации, такие как использование легковесного автоэнкодера, многоуровневая дистилляция и противостоящая дистилляция, позволяют достигать высокой скорости редактирования без значительных потерь в качестве. Эти достижения открывают новые горизонты для мобильного видеомонтажа, позволяя пользователям легко и быстро редактировать видео в реальном времени.