Свежая выжимка ml и AI статей - каждый день
В мире генеративных моделей последние годы ознаменовались революционными изменениями, особенно с появлением моделей на основе диффузии (diffusion models). Эти модели, такие как SDXL и FLUX, не только улучшили процесс генерации изображений, но и открыли новые возможности для редактирования изображений. В данной статье мы рассмотрим концепцию Stable Flow, предложенную в исследовании под названием "Stable Flow: Vital Layers for Training-Free Image Editing", и как она использует ограниченную диверсификацию в моделях потока (flow models) для выполнения стабильного редактирования изображений.
Генеративные модели, основанные на диффузии, преобразовали подходы к синтезу и редактированию контента. Ранние модели использовали архитектуру UNet, но последние разработки, такие как FLUX и SD3, заменили её на Diffusion Transformer (DiT) и применили метод сопоставления потока (flow matching) для ускорения обучения и выборки. Однако, несмотря на эти улучшения, они проявляют меньшую диверсификацию в генерации изображений, что может казаться недостатком. Но исследование Stable Flow предлагает использовать эту особенность для выполнения последовательных и стабильных редактирований изображений.
Одним из ключевых моментов в Stable Flow является использование ограниченной диверсификации в моделях потока. Это означает, что при использовании одних и тех же начальных условий и разных текстовых подсказок (prompts), модели генерируют изображения с меньшим разнообразием, чем традиционные диффузионные модели. Это свойство позволяет сохранять стабильность и консистентность в процессе редактирования изображений.
Витальные слои в контексте DiT — это слои, которые играют критическую роль в формировании изображения. Исследователи предложили автоматический метод для выявления этих слоев, измеряя отклонение в содержании изображения при пропуске каждого слоя. Было обнаружено, что эти слои распределены по всей архитектуре трансформера, а не сосредоточены в определенных областях.
Для редактирования изображений Stable Flow использует механизм инъекции внимания (attention injection). Это включает в себя параллельную генерацию исходного и редактируемого изображения, с последующей заменой эмбеддингов изображения в витальных слоях редактируемого изображения на эмбеддинги исходного изображения. Это позволяет сохранять неизменными те части изображения, которые не должны быть изменены, в то время как вносятся изменения в соответствии с текстовой подсказкой.
Для редактирования реальных изображений требуется их инверсия в латентное пространство модели. Stable Flow вводит технику "латентного толчка" (latent nudging), которая улучшает точность реконструкции изображения, применяя небольшое скалярное возмущение к латентному представлению перед его инверсией. Это помогает избежать нежелательных изменений в изображении во время прямого прохода.
Stable Flow демонстрирует свою эффективность в различных задачах редактирования изображений, включая:
В ходе экспериментов метод Stable Flow был сравнен с другими методами редактирования изображений, такими как SDEdit, P2P+NTI, Instruct-P2P, MagicBrush, и MasaCTRL. Сравнение показало, что Stable Flow обеспечивает лучшую стабильность и консистентность редактирования, сохраняя при этом высокую адгезию к текстовым подсказкам.
Несмотря на свои преимущества, Stable Flow имеет несколько ограничений:
В заключение, Stable Flow представляет собой инновационный подход к редактированию изображений, который использует ограниченную диверсификацию моделей потока для выполнения стабильных и контролируемых изменений. Автоматический метод определения витальных слоев и техника латентного толчка значительно улучшают процесс редактирования, открывая новые возможности для творческого выражения и применения в различных областях, от дизайна до искусственного интеллекта.