SUGAR: Нулевая настройка видео на основе субъекта

Современные технологии генерации видео и изображений достигли значительных успехов благодаря использованию больших предобученных моделей и методов глубокого обучения. Однако, несмотря на впечатляющие достижения в области генерации контента, такие как текстово-ориентированная генерация изображений и видео, существует потребность в более сложных подходах, позволяющих настраивать контент для конкретного субъекта на основе одного изображения. В этой статье мы обсудим метод SUGAR, который предлагает нулевую настройку для генерации видео, ориентированного на конкретного субъекта, с учетом заданных пользователем атрибутов.

Основные концепции SUGAR

Нулевая настройка

SUGAR (Subject-driven Video Customization in a Zero-Shot Manner) представляет собой метод, который позволяет генерировать видео для конкретного субъекта, представленного в пользовательском изображении, без необходимости дополнительной настройки модели на этапе тестирования. Это означает, что SUGAR способен создавать видео, соответствующие заданным пользователем текстовым описаниям, включая стиль, текстуру и движение, без необходимости дообучения модели на новых данных.

Синтетический датасет

Одной из ключевых особенностей SUGAR является создание масштабируемого синтетического датасета, который состоит из 2,5 миллионов триплетов изображений-видео-текста. Этот датасет специально разработан для поддержки задач настройки видео на основе субъекта и является основой для достижения нулевой настройки. Он позволяет модели извлекать информацию о субъекте и генерировать видео, соответствующие заданным текстовым атрибутам.

Архитектура модели

Модель SUGAR использует архитектуру, основанную на трансформерах, что позволяет эффективно обрабатывать входные данные и генерировать видео. Входные данные представляют собой конкатенацию эмбеддингов изображений, текстов и шумового латентного кода. Это позволяет модели учитывать информацию о субъекте и заданных атрибутах при генерации видео.

Процесс генерации видео

Построение синтетического датасета

Процесс генерации видео начинается с создания синтетического датасета. Для этого используются изображения с метками, которые охватывают широкий спектр объектов и животных. На каждом этапе генерируются текстовые подсказки, описывающие целевое видео с заданными визуальными атрибутами.

Сбор данных: Исходные изображения собираются из различных источников, чтобы обеспечить разнообразие объектов и животных.
Генерация текстовых подсказок: Для каждого изображения создается текстовая подсказка, описывающая желаемое видео с учетом стиля, текстуры и других атрибутов.
Генерация изображений: На основе пар "изображение-текст" производится генерация пользовательских изображений, которые будут использованы для создания видео.

Генерация видео

После получения пользовательского изображения, оно обрабатывается и передается в предобученную модель генерации видео. Процесс включает в себя несколько этапов:

Обработка изображения: Изображение подготавливается к передаче в модель, включая изменение его разрешения и соотношения сторон.
Генерация видео: Обработанное изображение передается в модель генерации видео, которая создает динамическое видео на основе заданных атрибутов.
Фильтрация видео: Сгенерированные видео проходят этап фильтрации для удаления низкокачественного контента и обеспечения согласованности субъекта.

Усовершенствования модели

Дизайн внимания

SUGAR вводит специальные механизмы внимания, позволяющие модели более эффективно обрабатывать информацию о субъекте и заданных атрибутах. Это обеспечивает лучшее сохранение идентичности субъекта и улучшает текстовую согласованность.

Стратегии обучения

Разработаны различные стратегии обучения, которые позволяют модели лучше справляться с задачами генерации видео. Например, SUGAR-Mix использует смешанный датасет, в то время как SUGAR-TSF применяет двухступенчатую стратегию, что позволяет модели сначала обучаться на реальных видео, а затем на смешанном датасете.

Улучшенное семплирование

SUGAR также включает в себя улучшенные методы семплирования, такие как классическая безклассовая направляющая (CFG), что позволяет модели более гибко управлять процессом генерации и улучшать качество выходного видео.

Эксперименты и результаты

Оценка качества

Для оценки качества сгенерированных видео используются несколько метрик:

Сохранение идентичности: Используется DINO-оценка для проверки, сохраняется ли идентичность субъекта в сгенерированном видео.
Текстовая согласованность: Оценивается, насколько хорошо сгенерированное видео соответствует заданным текстовым описаниям с использованием CLIP и ViCLIP.
Динамика движения: Оценивается динамика движения в видео с помощью RAFT, что позволяет определить, насколько хорошо модель справляется с генерацией движущихся объектов.

Сравнение с другими методами

Результаты экспериментов показывают, что SUGAR превосходит существующие методы по всем ключевым метрикам, включая сохранение идентичности, текстовую согласованность и динамику движения. Это подтверждает эффективность предложенного метода и его способность генерировать высококачественное видео, ориентированное на конкретного субъекта.

Заключение

SUGAR представляет собой значительный шаг вперед в области генерации видео, позволяя создавать контент, ориентированный на конкретного субъекта, без необходимости дополнительной настройки модели. Использование масштабируемого синтетического датасета, специальных механизмов внимания и улучшенных стратегий обучения делает SUGAR одним из лучших методов в своей области. Этот подход открывает новые возможности для применения технологий генерации видео в различных сферах, от развлечений до образования и маркетинга.

Статья на arxiv Оригинал pdf synthetic customization attention

Ай Дайджест