Свежая выжимка ml и AI статей - каждый день
Современные технологии генерации видео и изображений достигли значительных успехов благодаря использованию больших предобученных моделей и методов глубокого обучения. Однако, несмотря на впечатляющие достижения в области генерации контента, такие как текстово-ориентированная генерация изображений и видео, существует потребность в более сложных подходах, позволяющих настраивать контент для конкретного субъекта на основе одного изображения. В этой статье мы обсудим метод SUGAR, который предлагает нулевую настройку для генерации видео, ориентированного на конкретного субъекта, с учетом заданных пользователем атрибутов.
SUGAR (Subject-driven Video Customization in a Zero-Shot Manner) представляет собой метод, который позволяет генерировать видео для конкретного субъекта, представленного в пользовательском изображении, без необходимости дополнительной настройки модели на этапе тестирования. Это означает, что SUGAR способен создавать видео, соответствующие заданным пользователем текстовым описаниям, включая стиль, текстуру и движение, без необходимости дообучения модели на новых данных.
Одной из ключевых особенностей SUGAR является создание масштабируемого синтетического датасета, который состоит из 2,5 миллионов триплетов изображений-видео-текста. Этот датасет специально разработан для поддержки задач настройки видео на основе субъекта и является основой для достижения нулевой настройки. Он позволяет модели извлекать информацию о субъекте и генерировать видео, соответствующие заданным текстовым атрибутам.
Модель SUGAR использует архитектуру, основанную на трансформерах, что позволяет эффективно обрабатывать входные данные и генерировать видео. Входные данные представляют собой конкатенацию эмбеддингов изображений, текстов и шумового латентного кода. Это позволяет модели учитывать информацию о субъекте и заданных атрибутах при генерации видео.
Процесс генерации видео начинается с создания синтетического датасета. Для этого используются изображения с метками, которые охватывают широкий спектр объектов и животных. На каждом этапе генерируются текстовые подсказки, описывающие целевое видео с заданными визуальными атрибутами.
После получения пользовательского изображения, оно обрабатывается и передается в предобученную модель генерации видео. Процесс включает в себя несколько этапов:
SUGAR вводит специальные механизмы внимания, позволяющие модели более эффективно обрабатывать информацию о субъекте и заданных атрибутах. Это обеспечивает лучшее сохранение идентичности субъекта и улучшает текстовую согласованность.
Разработаны различные стратегии обучения, которые позволяют модели лучше справляться с задачами генерации видео. Например, SUGAR-Mix использует смешанный датасет, в то время как SUGAR-TSF применяет двухступенчатую стратегию, что позволяет модели сначала обучаться на реальных видео, а затем на смешанном датасете.
SUGAR также включает в себя улучшенные методы семплирования, такие как классическая безклассовая направляющая (CFG), что позволяет модели более гибко управлять процессом генерации и улучшать качество выходного видео.
Для оценки качества сгенерированных видео используются несколько метрик:
Результаты экспериментов показывают, что SUGAR превосходит существующие методы по всем ключевым метрикам, включая сохранение идентичности, текстовую согласованность и динамику движения. Это подтверждает эффективность предложенного метода и его способность генерировать высококачественное видео, ориентированное на конкретного субъекта.
SUGAR представляет собой значительный шаг вперед в области генерации видео, позволяя создавать контент, ориентированный на конкретного субъекта, без необходимости дополнительной настройки модели. Использование масштабируемого синтетического датасета, специальных механизмов внимания и улучшенных стратегий обучения делает SUGAR одним из лучших методов в своей области. Этот подход открывает новые возможности для применения технологий генерации видео в различных сферах, от развлечений до образования и маркетинга.