Свежая выжимка ml и AI статей - каждый день
С недавним развитием генеративных моделей, таких как GAN и диффузионные модели, исследователи стремятся улучшить интерпретируемость этих моделей, особенно в контексте редактирования изображений. Одной из наиболее актуальных задач является достижение разделенного редактирования, которое позволяет точно управлять конкретными атрибутами или характеристиками в сгенерированных изображениях. В данной статье мы рассмотрим новый подход, предложенный в работе "FluxSpace", который использует ректифицированные потоковые трансформеры для достижения высококачественного семантического редактирования изображений.
Ректифицированные потоковые модели представляют собой класс генеративных моделей, которые строят прямые траектории между распределениями данных. Эти модели используют временную зависимость для преобразования случайного шума в изображения. В отличие от диффузионных моделей, которые полагаются на многоступенчатый процесс, ректифицированные потоки обеспечивают более высокую степень контроля над процессом генерации изображений.
Разделенное редактирование предполагает возможность изменения конкретных атрибутов изображения без затрагивания других элементов. Это особенно важно, поскольку многие существующие методы редактирования изображений могут приводить к нежелательным изменениям в других аспектах изображения. FluxSpace предлагает решение этой проблемы, позволяя проводить редактирование на основе семантических направлений, которые можно точно контролировать.
В FluxSpace используется набор семантически интерпретируемых представлений, извлеченных из блоков трансформеров внутри ректифицированных потоковых моделей. Эти представления позволяют выполнять широкий спектр задач редактирования изображений, от тонких изменений до художественного создания. Метод не требует дополнительного обучения и может применяться во время вывода.
FluxSpace использует архитектуру ректифицированных потоковых трансформеров для создания структурированного метода контролируемого редактирования изображений. В каждом временном шаге модель предсказывает шум на основе зашумленного латентного представления и текстовых условий. Этот процесс происходит через многоуровневые блоки трансформеров, что позволяет осуществлять прогрессивное изменение представления.
В архитектуре FluxSpace реализован механизм модуляции, который позволяет контролировать влияние текстовых подсказок на генерацию изображений. Это достигается путем комбинирования различных эмбеддингов, которые обеспечивают масштабирование и сдвиг характеристик, подаваемых в слои внимания.
FluxSpace предлагает два уровня редактирования: тонкое и грубое. Тонкое редактирование позволяет вносить детализированные изменения, такие как добавление улыбки, в то время как грубое редактирование позволяет изменять общую стилистику изображения, например, преобразовывать его в комиксный стиль.
Для оценки эффективности FluxSpace проведены как качественные, так и количественные эксперименты. Использовались различные состояния искусства для сравнения, включая методы на основе диффузионных моделей и потоковых методов.
Результаты экспериментов показали, что FluxSpace способен выполнять разделенные редактирования, такие как добавление очков или улыбок, без изменения нерелевантных характеристик. В отличие от других методов, таких как RF-Inversion и TurboEdit, FluxSpace сохраняет идентичность субъекта при редактировании, что является важным аспектом для применения в реальных задачах.
В количественных экспериментах FluxSpace продемонстрировал превосходство в отношении семантической согласованности и сохранения контента. Использовались метрики, такие как CLIP-T и CLIP-I, для оценки точности редактирования и сохранения оригинальных характеристик изображений.
FluxSpace может применяться как к сгенерированным, так и к реальным изображениям. Это открывает новые возможности для использования в таких областях, как реклама, мода и искусство, где требуется точное редактирование изображений.
Несмотря на значительные преимущества, использование FluxSpace также поднимает важные этические вопросы. Способность выполнять точные манипуляции с изображениями может привести к проблемам с конфиденциальностью и подделкой контента. Поэтому необходимо разработать и внедрить этические нормы и правила, чтобы гарантировать ответственное использование технологий редактирования изображений.
FluxSpace представляет собой новый и мощный метод, который позволяет выполнять целенаправленные разделенные редактирования в различных атрибутах и стилях, сохраняя оригинальную идентичность субъектов на изображениях. Результаты демонстрируют его эффективность в выполнении тонких редактирований и стилистических трансформаций, что подчеркивает его универсальность и потенциал в области редактирования изображений.