Свежая выжимка ml и AI статей - каждый день
Модели диффузии видео достигли значительного прогресса в создании реалистичного контента, однако их применение на мобильных устройствах ограничено высокими вычислительными требованиями. В данной статье мы обсудим новый подход, представленный в работе, который предлагает оптимизированную модель диффузии видео, подходящую для мобильных платформ, названную MobileVD. Эта модель использует ряд инновационных методов для снижения вычислительных затрат, что делает ее доступной для использования на устройствах с ограниченными ресурсами.
Современные модели диффузии видео, такие как Stable Video Diffusion (SVD), требуют значительных вычислительных ресурсов, что ограничивает их использование в облачных системах и на мобильных устройствах. Например, SVD использует 45.43 TFLOPs для генерации видео, что делает его непрактичным для мобильных приложений. Это создает препятствия для широкого внедрения технологий генерации видео, особенно в приложениях, требующих локального создания контента.
MobileVD представляет собой первую мобильную оптимизированную модель диффузии видео, которая значительно снижает требования к памяти и вычислительным ресурсам. Основные изменения включают:
Снижение разрешения кадров: Для уменьшения нагрузки на память и вычисления мы используем более низкое разрешение входных данных, что позволяет быстрее обрабатывать и генерировать видео.
Многоуровневые временные представления: Мы внедряем многоуровневое представление временных данных, что позволяет моделям более эффективно обрабатывать информацию о движении.
Принципы обрезки: Вводятся два новых метода обрезки, которые уменьшают количество каналов и временных блоков, необходимых для обработки.
Адвесариальная донастройка: Мы применяем донастройку с использованием методов противостояния, что позволяет сократить количество шагов денойсинга до одного, что значительно ускоряет процесс генерации.
По сравнению с SVD, MobileVD демонстрирует эффективность в 523 раз (1817.2 TFLOPs против 4.34 TFLOPs) при незначительном снижении качества (FVD 149 против 171). Это делает модель более подходящей для мобильных устройств, таких как смартфоны на базе Qualcomm Snapdragon 8 Gen 3, где MobileVD генерирует 14 кадров с разрешением 512x256 пикселей всего за 1.7 секунды.
В последние годы наблюдается значительный прогресс в области генерации видео с использованием моделей диффузии. Однако большинство существующих решений сосредоточено на высокопроизводительных вычислительных системах. Исследования, направленные на ускорение моделей диффузии видео, в основном касались уменьшения числа шагов выборки, но не решали проблему высокой нагрузки на память.
MobileVD строится на основе SVD, который изначально генерирует 14 кадров с разрешением 1024x576. Мы применяем несколько оптимизаций для снижения вычислительных затрат:
Оптимизация входного разрешения: Мы уменьшаем разрешение входного изображения до 512x256 пикселей, что позволяет модели работать быстрее без значительного ухудшения качества.
Многоуровневая временная обработка: Вместо того чтобы сохранять количество кадров, мы вводим дополнительные операции по уменьшению и увеличению временной дискретизации, что снижает затраты на память и вычисления.
Оптимизация кросс-внимания: Мы упрощаем вычисления в слоях кросс-внимания, так как они требуют значительных ресурсов. Устранение избыточных операций позволяет значительно ускорить процесс.
Мы используем подход, основанный на адвесариальной донастройке, чтобы уменьшить количество шагов денойсинга до одного. Это позволяет значительно ускорить процесс генерации видео, что критично для мобильных устройств.
Мы вводим методы обрезки временных блоков и каналов, что позволяет модели более эффективно использовать ресурсы. С помощью обучаемых значений важности мы можем исключить менее значимые временные блоки, что также снижает вычислительные затраты.
Эксперименты показали, что MobileVD успешно генерирует видео с качеством, сопоставимым с SVD, но с значительно меньшими вычислительными затратами. Мы также провели сравнение с другими современными моделями, такими как AnimateLCM и SF-V, и обнаружили, что MobileVD обеспечивает лучшее качество при меньших затратах.
Работа над MobileVD представляет собой важный шаг в направлении оптимизации моделей диффузии видео для мобильных устройств. Мы продемонстрировали, что с помощью эффективных методов оптимизации можно значительно снизить вычислительные требования, что открывает новые возможности для создания контента на мобильных платформах.
Несмотря на достигнутые успехи, существуют ограничения, связанные с разрешением и количеством кадров, которые может генерировать MobileVD. В будущем планируется использовать более эффективные автоэнкодеры для достижения лучших компрессионных характеристик, что позволит создавать видео большего размера и длительности без значительных затрат на вычисления.
Таким образом, MobileVD открывает новые горизонты для генерации видео на мобильных устройствах, позволяя пользователям создавать контент с меньшими ограничениями по доступу и без необходимости в облачных решениях.