Свежая выжимка ml и AI статей - каждый день
Современные достижения в области компьютерного зрения и графики значительно изменили подходы к редактированию изображений. В частности, технологии, основанные на генеративных моделях, таких как GAN и диффузионные модели, открывают новые возможности для манипуляции изображениями. Однако, несмотря на прогресс, существующие наборы данных для редактирования изображений часто страдают от недостатка качественной аннотации и человеческой обратной связи. В ответ на эти вызовы был разработан набор данных HumanEdit, который нацелен на создание высококачественных пар изображений и инструкций, обеспечивая более точные и разнообразные возможности редактирования.
HumanEdit представляет собой набор данных, который включает в себя 5751 изображение, каждое из которых сопровождается аннотированными инструкциями для редактирования. Набор данных охватывает шесть различных категорий редактирования: действие, добавление, подсчет, удаление, замена и отношения. Это разнообразие позволяет использовать HumanEdit для различных задач редактирования изображений, включая изменение объектов, изменение фона и манипуляции с действиями объектов.
Повышенное качество данных: HumanEdit был создан с использованием многоразового контроля качества, что обеспечивает высокую точность и согласованность данных по сравнению с существующими наборами данных. Процесс аннотации потребовал более 2500 часов человеческого труда, что гарантирует надежность для задач тонкой настройки и оценки.
Разнообразные и высококачественные источники: В отличие от других наборов данных, таких как MagicBrush, HumanEdit использует изображения, собранные из более широкого спектра источников, включая Unsplash, что позволяет поддерживать высокую степень реалистичности и эстетики изображений.
Дифференциация масок: Набор данных включает изображения, которые требуют масок, и те, которые могут быть отредактированы без них, что позволяет обеспечить гибкость для различных сценариев редактирования.
Увеличенная разнообразие: Анализ данных, включая визуализации облаков слов и категorizations типов пар изображений, подчеркивает превосходное разнообразие HumanEdit.
Категоризация по измерениям: HumanEdit классифицирует задачи редактирования на шесть различных измерений, что создает четкую структуру для оценки и разработки.
Процесс аннотирования HumanEdit включает четыре этапа:
Обучение и отбор аннотаторов: На первом этапе разработан подробный учебный материал и тест для обеспечения высокого качества аннотаций. Аннотаторы проходят обучение и отбор на основе их результатов.
Выбор изображений и контроль качества: На втором этапе тщательно отбираются высококачественные изображения, которые затем оцениваются аннотаторами на соответствие предопределенным критериям качества.
Создание инструкций и генерация изображений: На третьем этапе аннотаторы создают новые и разнообразные инструкции для редактирования, используя платформу DALL-E 2 для определения областей масок и генерации отредактированных изображений.
Проверка качества и включение в базу данных: На последнем этапе администрация проводит двухуровневую проверку качества и предоставляет обратную связь. Если качество отредактированного изображения соответствует стандартам, оно включается в окончательный набор данных.
HumanEdit включает в себя изображения с разрешением 1024 × 1024 пикселей, что обеспечивает высокую степень детализации в редактировании. Более 62% изображений имеют разрешение выше 1000 пикселей, что способствует созданию фотореалистичных результатов. Кроме того, набор данных поддерживает как редактирование с масками, так и без них, что увеличивает его универсальность.
HumanEdit охватывает шесть типов редактирования:
Эта классификация позволяет исследователям и разработчикам использовать набор данных для создания более сложных моделей редактирования, которые могут учитывать разнообразные сценарии редактирования.
Для оценки производительности моделей на основе HumanEdit были установлены несколько базовых линий как для редактирования с масками, так и без них. Результаты показывают, что большинство методов лучше справляются с задачами добавления, чем с задачами удаления, что подчеркивает необходимость в более сложных подходах для обработки различных типов редактирования.
Для оценки производительности моделей используются несколько метрик, включая L1 и L2 для измерения средних пиксельных различий, а также CLIP и DINO для оценки качества изображений и согласованности текста и изображения. Эти метрики помогают установить четкие ориентиры для будущих исследований и разработок.
HumanEdit представляет собой значительный шаг вперед в области редактирования изображений, предлагая более качественный и разнообразный набор данных, который поддерживает сложные задачи редактирования на основе инструкций. С его помощью исследователи могут развивать и тестировать новые модели, которые лучше соответствуют человеческим предпочтениям и требованиям. Набор данных HumanEdit не только решает существующие проблемы, связанные с качеством и согласованностью данных, но и открывает новые горизонты для будущих исследований в области редактирования изображений.