DreamMix: Разделение атрибутов объектов для повышенной редактируемости в пользовательской ретуши изображений

В современном мире цифровых технологий и искусственного интеллекта, возможность изменять изображения с помощью текстовых команд становится все более востребованной. Однако, несмотря на значительные успехи в области генеративных моделей, такие как модели диффузии, существует ряд проблем, связанных с сохранением идентичности объектов и их атрибутов при их вставке в различные сцены. В данной статье мы рассмотрим инновационный подход, представленный в работе "DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting", который предлагает новые решения для этих задач.

С развитием моделей диффузии в области генерации изображений, задача пользовательской ретуши изображений (subject-driven image inpainting) стала особенно актуальной. Эта задача включает в себя вставку конкретных объектов в заданные области изображения, сохраняя при этом их идентичность и позволяя изменять их атрибуты по текстовым инструкциям. Традиционные методы, хотя и эффективны в сохранении идентичности объекта, часто сталкиваются с трудностями при попытке изменить его атрибуты, такие как цвет, текстуру или форму.

Основные концепции DreamMix

Разделение атрибутов объектов

DreamMix вводит концепцию разделения атрибутов объектов (Attribute Decoupling Mechanism, ADM). Этот механизм позволяет модели диффузии эффективно обрабатывать и изменять отдельные атрибуты объекта, не затрагивая его идентичность. ADM работает следующим образом:

Анализ атрибутов: Используя продвинутые модели языкового зрения (Vision-Language Models, VLMs), система анализирует исходные изображения для выделения атрибутов, таких как форма, материал, цвет и размер.
Создание словаря атрибутов: На основе анализа создается словарь атрибутов, который затем используется для формирования разнообразных текстовых описаний объекта.
Формирование обучающих данных: Эти описания комбинируются с изображениями для создания обучающих пар, что позволяет модели адаптироваться к разнообразию атрибутов без переобучения на конкретный объект.

Модуль подстановки текстовых атрибутов

Для улучшения редактируемости объектов в процессе тестирования вводится модуль подстановки текстовых атрибутов (Textual Attribute Substitution, TAS). Этот модуль использует ортогональную декомпозицию для разделения информации, которая может мешать точному редактированию атрибутов:

Декомпозиция текстовых эмбеддингов: Текстовые описания, предоставленные пользователем, преобразуются в эмбеддинги, которые затем декомпозируются для устранения влияния оригинальных атрибутов объекта.
Применение декомпозированных эмбеддингов: Полученные декомпозированные эмбеддинги используются в процессе ретуши для точного изменения атрибутов без влияния на идентичность объекта.

Двухэтапная ретушь

DreamMix использует двухэтапный процесс ретуши, который включает:

Локальное генерирование контента (Local Content Generation, LCG): На этом этапе модель фокусируется на точном вставлении объекта в указанную область изображения, сохраняя его идентичность и атрибуты.
Глобальная гармонизация контекста (Global Context Harmonization, GCH): Здесь модель работает над интеграцией вставленного объекта в общий контекст изображения, обеспечивая визуальную гармонию и целостность.

Практическое применение

DreamMix демонстрирует свою эффективность в различных сценариях:

Сохранение идентичности: Модель точно вставляет объекты в любые сцены, сохраняя их идентичность и гармонично вписывая их в контекст.
Редактирование атрибутов: Пользователи могут изменять атрибуты объектов, такие как цвет, текстуру, форму или добавлять аксессуары, основываясь на текстовых инструкциях.
Ретушь малых объектов: DreamMix успешно выполняет вставку и редактирование малых объектов, сохраняя при этом детали и визуальную гармонию.

Заключение

DreamMix представляет собой значительный шаг вперед в области пользовательской ретуши изображений, предлагая новые методы для более точного и гибкого редактирования объектов. С помощью разделения атрибутов, двухэтапного процесса ретуши и инновационных механизмов, таких как ADM и TAS, DreamMix открывает новые возможности для творчества и дизайна, делая процесс редактирования изображений более интуитивным и доступным для широкого круга пользователей.

Этот подход не только улучшает качество ретуши, но и расширяет границы того, что возможно в области генерации и редактирования изображений с помощью текстовых команд, что делает его ценным инструментом для дизайнеров, художников и любителей цифрового искусства.

Статья на arxiv Оригинал pdf inpainting generative editing