HumanEdit: Высококачественный набор данных для редактирования изображений на основе инструкций

Современные достижения в области компьютерного зрения и графики значительно изменили подходы к редактированию изображений. В частности, технологии, основанные на генеративных моделях, таких как GAN и диффузионные модели, открывают новые возможности для манипуляции изображениями. Однако, несмотря на прогресс, существующие наборы данных для редактирования изображений часто страдают от недостатка качественной аннотации и человеческой обратной связи. В ответ на эти вызовы был разработан набор данных HumanEdit, который нацелен на создание высококачественных пар изображений и инструкций, обеспечивая более точные и разнообразные возможности редактирования.

Цели и задачи HumanEdit

HumanEdit представляет собой набор данных, который включает в себя 5751 изображение, каждое из которых сопровождается аннотированными инструкциями для редактирования. Набор данных охватывает шесть различных категорий редактирования: действие, добавление, подсчет, удаление, замена и отношения. Это разнообразие позволяет использовать HumanEdit для различных задач редактирования изображений, включая изменение объектов, изменение фона и манипуляции с действиями объектов.

Преимущества HumanEdit

Повышенное качество данных: HumanEdit был создан с использованием многоразового контроля качества, что обеспечивает высокую точность и согласованность данных по сравнению с существующими наборами данных. Процесс аннотации потребовал более 2500 часов человеческого труда, что гарантирует надежность для задач тонкой настройки и оценки.
Разнообразные и высококачественные источники: В отличие от других наборов данных, таких как MagicBrush, HumanEdit использует изображения, собранные из более широкого спектра источников, включая Unsplash, что позволяет поддерживать высокую степень реалистичности и эстетики изображений.
Дифференциация масок: Набор данных включает изображения, которые требуют масок, и те, которые могут быть отредактированы без них, что позволяет обеспечить гибкость для различных сценариев редактирования.
Увеличенная разнообразие: Анализ данных, включая визуализации облаков слов и категorizations типов пар изображений, подчеркивает превосходное разнообразие HumanEdit.
Категоризация по измерениям: HumanEdit классифицирует задачи редактирования на шесть различных измерений, что создает четкую структуру для оценки и разработки.

Процесс аннотирования данных

Процесс аннотирования HumanEdit включает четыре этапа:

Обучение и отбор аннотаторов: На первом этапе разработан подробный учебный материал и тест для обеспечения высокого качества аннотаций. Аннотаторы проходят обучение и отбор на основе их результатов.
Выбор изображений и контроль качества: На втором этапе тщательно отбираются высококачественные изображения, которые затем оцениваются аннотаторами на соответствие предопределенным критериям качества.
Создание инструкций и генерация изображений: На третьем этапе аннотаторы создают новые и разнообразные инструкции для редактирования, используя платформу DALL-E 2 для определения областей масок и генерации отредактированных изображений.
Проверка качества и включение в базу данных: На последнем этапе администрация проводит двухуровневую проверку качества и предоставляет обратную связь. Если качество отредактированного изображения соответствует стандартам, оно включается в окончательный набор данных.

Статистика и характеристики набора данных

HumanEdit включает в себя изображения с разрешением 1024 × 1024 пикселей, что обеспечивает высокую степень детализации в редактировании. Более 62% изображений имеют разрешение выше 1000 пикселей, что способствует созданию фотореалистичных результатов. Кроме того, набор данных поддерживает как редактирование с масками, так и без них, что увеличивает его универсальность.

Типы редактирования

HumanEdit охватывает шесть типов редактирования:

Действие: Изменение действий объектов на изображении.
Добавление: Включение новых объектов в изображение.
Подсчет: Изменение количества объектов.
Удаление: Исключение объектов из изображения.
Замена: Замена одного объекта другим.
Отношения: Изменение отношений между объектами.

Эта классификация позволяет исследователям и разработчикам использовать набор данных для создания более сложных моделей редактирования, которые могут учитывать разнообразные сценарии редактирования.

Бенчмарки и результаты

Для оценки производительности моделей на основе HumanEdit были установлены несколько базовых линий как для редактирования с масками, так и без них. Результаты показывают, что большинство методов лучше справляются с задачами добавления, чем с задачами удаления, что подчеркивает необходимость в более сложных подходах для обработки различных типов редактирования.

Оценочные метрики

Для оценки производительности моделей используются несколько метрик, включая L1 и L2 для измерения средних пиксельных различий, а также CLIP и DINO для оценки качества изображений и согласованности текста и изображения. Эти метрики помогают установить четкие ориентиры для будущих исследований и разработок.

Заключение

HumanEdit представляет собой значительный шаг вперед в области редактирования изображений, предлагая более качественный и разнообразный набор данных, который поддерживает сложные задачи редактирования на основе инструкций. С его помощью исследователи могут развивать и тестировать новые модели, которые лучше соответствуют человеческим предпочтениям и требованиям. Набор данных HumanEdit не только решает существующие проблемы, связанные с качеством и согласованностью данных, но и открывает новые горизонты для будущих исследований в области редактирования изображений.

Статья на arxiv Оригинал pdf dataset feedback accuracy

Ай Дайджест