Свежая выжимка ml и AI статей - каждый день
В последние годы генерация видео с использованием искусственного интеллекта (AI) и моделей глубокого обучения (LLM) привлекла значительное внимание. Одной из самых интересных задач является стилизация видео, где цель состоит в том, чтобы преобразовать видеопоток в соответствии с заданным стилем, основываясь на примере изображения. Однако существующие методы часто сталкиваются с проблемами, такими как утечка содержимого и недостаточная точность передачи стиля. В этой статье мы рассмотрим новый подход, предложенный в работе StyleMaster, который преодолевает эти ограничения, применяя улучшенные методы извлечения стиля и управления содержимым.
Существующие методы стилизации видео, такие как VideoComposer и InstantStyle, часто не могут сохранить локальные текстуры и страдают от утечки содержимого. Утечка содержимого происходит, когда элементы исходного контента не только сохраняются, но и становятся доминирующими в стилизованном видео. Это происходит из-за недостаточной раздельности между содержанием и стилем, что приводит к неестественным результатам.
Кроме того, многие из этих методов не учитывают локальные текстуры, такие как мазки кисти в картинах Ван Гога, что делает их менее подходящими для сложных художественных стилей. В отличие от этого, подход StyleMaster акцентирует внимание на важности как глобальных, так и локальных характеристик стиля, что позволяет достичь более точного и качественного результата.
StyleMaster включает в себя несколько ключевых этапов для достижения высококачественной стилизации видео:
Извлечение локальных текстур: Вместо того чтобы полагаться на глобальные характеристики стиля, StyleMaster использует локальные патчи изображения для извлечения текстур. Это позволяет сохранить детали, которые могут потеряться при использовании только глобального представления.
Фильтрация патчей: Для предотвращения утечки содержимого, патчи, которые имеют высокую степень сходства с текстовыми подсказками, отбрасываются. Это позволяет сохранить только те патчи, которые содержат текстурные элементы, не относящиеся к конкретному контенту.
Контрастивное обучение: Для улучшения извлечения глобального стиля, StyleMaster использует контрастивное обучение на основе пар изображений, созданных с помощью модели-иллюзии. Это позволяет создавать набор данных с абсолютной согласованностью стиля, что значительно улучшает точность извлечения стиля.
После фильтрации локальных патчей, StyleMaster применяет глобальное представление, извлекая информацию о стиле из изображения с помощью MLP (многоуровневого перцептрона). Это позволяет модели учитывать общие характеристики стиля, такие как цветовые палитры и общие текстуры, что в сочетании с локальными текстурами создает более полное представление стиля.
Одной из ключевых инноваций StyleMaster является использование адаптера движения, который обучается на статических видео. Это позволяет улучшить динамику стилизованного видео, избегая проблем с временной последовательностью и фликерами. Адаптер движения контролирует, как стиль применяется к различным кадрам, что обеспечивает более плавные переходы и стабильность в стилизованных видео.
StyleMaster также вводит механизм управления содержимым, используя серый тайловый ControlNet. Этот подход обеспечивает точное руководство по содержимому, позволяя более точно контролировать, как стиль применяется к различным элементам видео. Удаление цветовой информации из тайлового изображения предотвращает вмешательство цвета в процесс стилизации, что позволяет сохранить гармонию между стилем и содержимым.
Эксперименты, проведенные с использованием StyleMaster, показывают значительное улучшение по сравнению с конкурентами в задачах стилизации и передачи стиля. Визуализация результатов показывает, что StyleMaster не только генерирует высококачественные стилизованные видео, но и обеспечивает высокую степень соответствия текстовым подсказкам и стилю референсных изображений.
StyleMaster демонстрирует превосходные результаты по ряду метрик, таких как CSD-оценка (стилистическое сходство) и ArtFID (оценка художественного качества). Эти метрики показывают, что модель не только сохраняет стиль, но и эффективно передает содержание, что делает ее более подходящей для практического применения в области видеостилизации.
StyleMaster представляет собой значительный шаг вперед в области стилизации видео, преодолевая ограничения существующих методов. Сочетание улучшенных методов извлечения стиля, адаптера движения и управления содержимым позволяет достигать высококачественных результатов, которые соответствуют как художественным, так и содержательным требованиям. Будущее исследований в этой области, вероятно, будет сосредоточено на улучшении динамических стилей и расширении возможностей управления содержимым, что сделает видеостилизацию еще более универсальной и мощной.