OМНИ-ЕДИТ: Создание универсальных моделей редактирования изображений через специализированный надзор
Методы редактирования изображений на основе инструкций показали значительный потенциал, обучая модели диффузии на автоматически синтезированных или вручную аннотированных парах изображений для редактирования. Однако эти методы всё ещё далеки от практического применения в реальной жизни. Мы выделяем три основных вызова, которые способствуют этому разрыву. Во-первых, существующие модели обладают ограниченными навыками редактирования из-за предвзятого процесса синтеза. Во-вторых, эти методы обучаются на наборах данных с высоким уровнем шума и артефактов, что связано с применением простых методов фильтрации, таких как CLIP-score. В-третьих, все эти наборы данных ограничены одной низкой разрешенностью и фиксированным соотношением сторон, что ограничивает универсальность для обработки реальных сценариев использования. В данной статье мы представляем \omniedit, который является всесильным редактором, способным обрабатывать семь различных задач редактирования изображений с любым соотношением сторон без проблем. Наш вклад состоит из четырёх частей: (1) \omniedit обучается с использованием супервизии от семи различных специализированных моделей, чтобы обеспечить охват задач. (2) Мы используем важностное выборочное обучение на основе оценок, предоставляемых крупными мультимодальными моделями (например, GPT-4o), вместо CLIP-score для улучшения качества данных. (3) Мы предлагаем новую архитектуру редактирования под названием EditNet для значительного повышения успешности редактирования. (4) Мы предоставляем изображения с различными соотношениями сторон, чтобы наша модель могла обрабатывать любые изображения из реального мира. Мы создали тестовый набор, содержащий изображения с различными соотношениями сторон, сопровождаемые разнообразными инструкциями для покрытия различных задач. Как автоматическая оценка, так и оценка людьми показывают, что \omniedit значительно превосходит все существующие модели. Наш код, набор данных и модель будут доступны по адресу https://tiger-ai-lab.github.io/OmniEdit/.