FlowEdit: Новый Подход к Редактированию Изображений на Основе Текста

С развитием технологий генерации изображений, таких как модели диффузии и потока (flow models), редактирование изображений на основе текста стало одной из актуальных задач в области компьютерного зрения и машинного обучения. В данной статье мы рассмотрим новый метод редактирования изображений под названием FlowEdit, который предлагает инновационный подход к редактированию изображений без необходимости инверсии и оптимизации.

FlowEdit представляет собой метод, который использует предобученные модели потока для текстового редактирования изображений. Основная идея заключается в том, что вместо традиционного подхода редактирования через инверсию, FlowEdit строит прямую связь между распределениями исходного и целевого изображений, что позволяет достичь более высокой степени сохранения структуры и качества редактируемых изображений.

Проблемы традиционного подхода к редактированию изображений

Традиционные методы редактирования изображений, основанные на инверсии, обычно включают извлечение начального векторного шума, который соответствует изображению, которое необходимо отредактировать. Этот вектор затем используется для генерации редактируемого изображения с помощью новой текстовой подсказки. Однако данный подход часто приводит к недостаточной точности и сохранению структуры исходного изображения.

Многие методы, основанные на инверсии, стремятся улучшить результаты, добавляя дополнительные вмешательства в процесс выборки, что делает их сложными и не всегда переносимыми между различными архитектурами моделей. Это создает необходимость в более универсальных и эффективных методах редактирования изображений.

Концепция FlowEdit

FlowEdit предлагает совершенно новый подход к редактированию изображений, который не требует инверсии и оптимизации. Вместо этого метод строит прямую связь между распределениями исходного и целевого изображений, что позволяет избежать проблем, связанных с инверсией.

FlowEdit использует обыкновенные дифференциальные уравнения (ODE), чтобы напрямую сопоставить распределение исходного изображения с распределением целевого изображения, что ведет к более низким затратам на транспортировку и, следовательно, к лучшему сохранению структуры. Этот метод также является независимым от модели, что делает его легко переносимым между различными архитектурами моделей.

Как работает FlowEdit?

FlowEdit строит путь между исходным и целевым распределениями, используя информацию о векторном поле, которое зависит от текстовой подсказки. Это векторное поле определяет направление редактирования, позволяя изменять изображение в соответствии с заданными текстовыми подсказками.

Инициализация: Метод начинается с инициализации исходного изображения и определения целевой текстовой подсказки.
Строительство пути: Вместо инверсии, FlowEdit строит прямой путь между исходным и целевым распределениями, используя ODE. Это позволяет избежать дополнительных искажений, которые могут возникнуть в процессе инверсии.
Обновление изображения: На каждом шаге редактирования FlowEdit обновляет изображение, добавляя случайный шум, что позволяет генерировать разнообразные результаты в зависимости от случайного семени.

Преимущества FlowEdit

FlowEdit демонстрирует несколько значительных преимуществ по сравнению с традиционными методами редактирования изображений:

Отсутствие инверсии: Метод не требует инверсии, что упрощает процесс редактирования и делает его более эффективным.
Оптимизация структуры: FlowEdit достигает лучших результатов в сохранении структуры исходного изображения, что критично для многих приложений, таких как редактирование фотографий и создание художественных изображений.
Модельная независимость: Метод легко адаптируется к различным архитектурам моделей, что делает его универсальным инструментом для редактирования изображений.
Снижение затрат на транспортировку: FlowEdit показывает более низкие затраты на транспортировку по сравнению с методами, основанными на инверсии, что указывает на более качественные результаты редактирования.

Эксперименты и результаты

FlowEdit был протестирован на различных задачах редактирования изображений с использованием моделей Stable Diffusion 3 и FLUX. Результаты показали, что FlowEdit достигает состояния искусства в редактировании изображений, демонстрируя высокое качество и точность.

В экспериментах были использованы 1000 изображений кошек, которые затем были отредактированы в изображения собак с помощью FlowEdit и традиционных методов редактирования на основе инверсии. Результаты показали, что FlowEdit не только сохраняет структуру исходного изображения, но и обеспечивает лучшую согласованность с целевыми текстовыми подсказками.

Заключение

FlowEdit представляет собой значительный шаг вперед в области редактирования изображений на основе текста. Метод, основанный на прямом сопоставлении распределений, предлагает более эффективный и качественный подход к редактированию изображений, избегая проблем, связанных с традиционными методами инверсии. С его универсальностью и способностью достигать высоких результатов, FlowEdit открывает новые возможности для разработчиков и исследователей в области компьютерного зрения и машинного обучения.

В будущем исследование может сосредоточиться на дальнейшей оптимизации алгоритма и его применении в других областях, таких как видео редактирование и генерация контента.

Статья на arxiv Оригинал pdf editing inversion distribution