OМНИ-ЕДИТ: Создание универсальных моделей редактирования изображений через специализированный надзор

Рисунок 1: Редактирование изображений высокого разрешения с различными аспектными соотношениями с помощью OМНИ-ЕДИТ. OМНИ-ЕДИТ - это универсальный редактор на основе инструкций, способный выполнять разнообразные задачи редактирования изображений, сохраняя при этом высокую точность и верность исходному изображению. Рекомендуется увеличить масштаб для лучшего визуального восприятия.

Редактирование изображений, особенно под руководством пользовательских инструкций, стало важным направлением в области машинного обучения и искусственного интеллекта (AI). В последние годы текстово-ориентированное редактирование изображений (Brooks et al., 2023) вытеснило традиционные методы, такие как редактирование на основе масок или регионов (Meng et al., 2022). С появлением моделей диффузии (Rombach et al., 2022; Podell et al., 2024; Chen et al., 2024a; Sauer et al., 2024) появились многочисленные методы редактирования изображений на основе диффузии. Эти методы можно разделить на две основные категории:

Методы на основе инверсии (Parmar et al., 2023; Kawar et al., 2023; Gal et al., 2023; Xu et al., 2023; Tumanyan et al., 2023; Tsaban & Passos, 2023), которые предлагают выполнять редактирование изображений в режиме "нулевого выстрела" путем инверсии процесса диффузии и манипулирования картой внимания на промежуточных шагах диффузии для достижения желаемой цели редактирования.
Концевые методы (Brooks et al., 2023; Zhang et al., 2024a; Sheynin et al., 2024; Zhao et al., 2024; Fu et al., 2024), которые предлагают дообучать существующую модель диффузии на больших наборах данных пар редактирования изображений, чтобы научить модель выполнять операции редактирования в концевом режиме.

Концевые методы, как правило, показали лучшие результаты по сравнению с методами на основе инверсии и получили большую популярность. Однако, несмотря на их эффективность, концевые методы сталкиваются с серьезным ограничением: нехватка пар редактирования изображений, аннотированных человеком. В результате все текущие концевые подходы зависят от синтетических обучающих данных. Например, существующие наборы данных синтезируются с использованием таких техник, как Prompt2Prompt (Hertz et al., 2023) или модели редактирования на основе масок, такие как SD-Inpaint (Rombach et al., 2022), DALLE-2/3 (Ramesh et al., 2022; Betker et al., 2023). Однако эти синтетические данные обладают значительными предвзятостями, что приводит к следующим ограничениям:

Ограниченные возможности редактирования: Синтетические данные сильно зависят от используемых моделей генерации. Например, Prompt2Prompt испытывает трудности с локализованными изменениями, такими как добавление, удаление или замена объектов, в то время как SD-Inpaint и DALLE-2 неэффективны для глобальных изменений, таких как изменение стиля или фона. В результате модели, обученные на таких данных, наследуют эти ограничения.
Плохой контроль качества данных: Большинство подходов используют упрощенные механизмы фильтрации, такие как CLIP-score (Radford et al., 2021) или DINO-score (Caron et al., 2021), для автоматического выбора обучающих образцов. Однако недавние исследования (Ku et al., 2024) показали, что эти метрики плохо коррелируют с фактическим качеством данных, что приводит к неоптимальным обучающим данным, негативно влияющим на модель.
Отсутствие поддержки различных разрешений: Все текущие модели обучены на квадратных парах редактирования изображений, что делает их плохо обобщаемыми на изображения с не квадратными аспектными соотношениями.

В этой статье мы представляем OМНИ-ЕДИТ, новую модель, разработанную для решения этих проблем через четыре ключевые инновации:

Надзор от специалистов к универсалисту: Мы предлагаем обучать универсальную модель редактирования, OМНИ-ЕДИТ, используя надзор от нескольких специализированных моделей. В отличие от предыдущих подходов, которые полагались на одного эксперта, мы проводим обширный обзор и создаем (или обучаем) семь экспертов, каждый из которых специализируется на различной задаче редактирования. Эти специалисты предоставляют сигналы надзора для OМНИ-ЕДИТ.
Важностное выборочное обучение: Для обеспечения высококачественных обучающих данных мы используем большие мультимодальные модели (LLM) для присвоения оценок качества синтезированным образцам. Учитывая вычислительные затраты на использование GPT-4o (Achiam et al., 2023), мы сначала дистиллируем его способность оценивания в InternVL2 (Chen et al., 2024b) на средних выборках, а затем используем модель InternVL2 для масштабного оценивания.
Архитектура EditNet: Мы вводим EditNet, новую архитектуру на основе диффузии-трансформеров (Peebles & Xie, 2022), которая способствует взаимодействию между ветвью управления и оригинальной ветвью через промежуточные представления. Эта архитектура улучшает способность OМНИ-ЕДИТ понимать разнообразные задачи редактирования.
Поддержка любого аспектного соотношения: В процессе обучения мы включаем изображения с различными аспектными соотношениями, а также высоким разрешением, что обеспечивает способность OМНИ-ЕДИТ обрабатывать изображения любого аспектного соотношения без ухудшения качества выходных данных.

Мы создали бенчмарк редактирования изображений, OМНИ-ЕДИТ-БЕНЧ, который содержит разнообразные изображения с различными разрешениями и разнообразные инструкции, охватывающие все перечисленные навыки редактирования. Мы выполнили всестороннюю автоматическую и человеческую оценку, чтобы показать значительное улучшение OМНИ-ЕДИТ по сравнению с существующими базовыми моделями, такими как CosXL-Edit (Boesel & Rombach, 2024), UltraEdit (Zhao et al., 2024) и другими. На автоматических метриках, таких как VIEScore (Ku et al., 2024), мы превосходим все существующие подходы на разумное расстояние с точки зрения как перцептивного качества, так и семантической согласованности. Мы также провели человеческую оценку и наблюдали общее улучшение на 20% по сравнению с лучшей базовой моделью редактирования, CosXL-Edit (Boesel & Rombach, 2024).

Статья на arxiv Оригинал pdf sampling architecture diffusion

Ай Дайджест

OМНИ-ЕДИТ: Создание универсальных моделей редактирования изображений через специализированный надзор