Stable Flow: Vital Layers for Training-Free Image Editing

В мире генеративных моделей последние годы ознаменовались революционными изменениями, особенно с появлением моделей на основе диффузии (diffusion models). Эти модели, такие как SDXL и FLUX, не только улучшили процесс генерации изображений, но и открыли новые возможности для редактирования изображений. В данной статье мы рассмотрим концепцию Stable Flow, предложенную в исследовании под названием "Stable Flow: Vital Layers for Training-Free Image Editing", и как она использует ограниченную диверсификацию в моделях потока (flow models) для выполнения стабильного редактирования изображений.

Генеративные модели, основанные на диффузии, преобразовали подходы к синтезу и редактированию контента. Ранние модели использовали архитектуру UNet, но последние разработки, такие как FLUX и SD3, заменили её на Diffusion Transformer (DiT) и применили метод сопоставления потока (flow matching) для ускорения обучения и выборки. Однако, несмотря на эти улучшения, они проявляют меньшую диверсификацию в генерации изображений, что может казаться недостатком. Но исследование Stable Flow предлагает использовать эту особенность для выполнения последовательных и стабильных редактирований изображений.

Основные концепции Stable Flow

Ограниченная диверсификация

Одним из ключевых моментов в Stable Flow является использование ограниченной диверсификации в моделях потока. Это означает, что при использовании одних и тех же начальных условий и разных текстовых подсказок (prompts), модели генерируют изображения с меньшим разнообразием, чем традиционные диффузионные модели. Это свойство позволяет сохранять стабильность и консистентность в процессе редактирования изображений.

Витальные слои (Vital Layers)

Витальные слои в контексте DiT — это слои, которые играют критическую роль в формировании изображения. Исследователи предложили автоматический метод для выявления этих слоев, измеряя отклонение в содержании изображения при пропуске каждого слоя. Было обнаружено, что эти слои распределены по всей архитектуре трансформера, а не сосредоточены в определенных областях.

Механизм редактирования

Для редактирования изображений Stable Flow использует механизм инъекции внимания (attention injection). Это включает в себя параллельную генерацию исходного и редактируемого изображения, с последующей заменой эмбеддингов изображения в витальных слоях редактируемого изображения на эмбеддинги исходного изображения. Это позволяет сохранять неизменными те части изображения, которые не должны быть изменены, в то время как вносятся изменения в соответствии с текстовой подсказкой.

Инверсия изображений

Для редактирования реальных изображений требуется их инверсия в латентное пространство модели. Stable Flow вводит технику "латентного толчка" (latent nudging), которая улучшает точность реконструкции изображения, применяя небольшое скалярное возмущение к латентному представлению перед его инверсией. Это помогает избежать нежелательных изменений в изображении во время прямого прохода.

Применение и результаты

Stable Flow демонстрирует свою эффективность в различных задачах редактирования изображений, включая:

Не-жесткое редактирование: Изменение формы или позы объектов на изображении.
Добавление объектов: Вставка новых объектов в сцену.
Замена объектов: Замена одного объекта на другой.
Глобальное редактирование сцены: Изменение общего вида сцены, например, изменение времени суток или погодных условий.

В ходе экспериментов метод Stable Flow был сравнен с другими методами редактирования изображений, такими как SDEdit, P2P+NTI, Instruct-P2P, MagicBrush, и MasaCTRL. Сравнение показало, что Stable Flow обеспечивает лучшую стабильность и консистентность редактирования, сохраняя при этом высокую адгезию к текстовым подсказкам.

Ограничения и выводы

Несмотря на свои преимущества, Stable Flow имеет несколько ограничений:

Редактирование стиля: Метод испытывает трудности при изменении стиля изображения, например, преобразование фотографического изображения в анимацию или картину маслом.
Перемещение объектов: Не способен эффективно перемещать объекты внутри изображения.
Замена фона: Не всегда удается полностью заменить фон без утечек исходного изображения.

В заключение, Stable Flow представляет собой инновационный подход к редактированию изображений, который использует ограниченную диверсификацию моделей потока для выполнения стабильных и контролируемых изменений. Автоматический метод определения витальных слоев и техника латентного толчка значительно улучшают процесс редактирования, открывая новые возможности для творческого выражения и применения в различных областях, от дизайна до искусственного интеллекта.

Статья на arxiv Оригинал pdf diffusion transformer flow

Ай Дайджест