ObjectMate: Новый подход к вставке объектов и генерации изображений

С развитием технологий искусственного интеллекта (AI) и генеративного моделирования, задача композиции объектов в сценах становится всё более актуальной. В данной статье мы рассмотрим метод, предложенный в работе "ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation", который предлагает новый подход к вставке объектов и генерации изображений, объединяя две популярные подзадачи: вставку объектов и генерацию на основе заданного описания.

Задача композиции объектов

Композиция объектов включает в себя два основных входа: набор ссылочных изображений объекта и описание целевой сцены. Для вставки объекта в сцену описание включает фоновое изображение и целевую позицию, в то время как для генерации на основе текста используется текстовый запрос. Основная цель состоит в том, чтобы фотореалистично встроить объект в сцену, сохраняя его идентичность.

Существующие модели генерации часто сталкиваются с трудностями в сохранении деталей объекта и сцены, а также в гармонизации геометрии и освещения объекта с окружением. Это связано с высокой сложностью задачи и её значимостью для промышленности, что привлекло внимание исследователей на протяжении нескольких десятилетий.

Объектный рецидивный приоритет

В данной работе авторы вводят понятие "объектного рецидивного приоритета". Это наблюдение основано на том, что многие массово производимые объекты повторяются в различных изображениях больших неразмеченных наборов данных, что позволяет создать масштабный набор данных для обучения.

Сбор данных

Сбор данных для обучения модели является критически важным этапом. В работе рассматриваются три основных подхода к сбору данных: ручной сбор, аугментация одиночных изображений и методы, основанные на видео. Каждый из этих методов имеет свои ограничения, такие как высокая стоимость ручного сбора, недостаточная разнообразие аугментированных данных и ограниченная разнообразность видео данных.

Авторы предлагают новый подход, который использует неразмеченные наборы данных изображений для извлечения многовидовых данных, что позволяет преодолеть ограничения предыдущих методов.

Метод ObjectMate

Метод ObjectMate использует объектный рецидивный приоритет для создания размеченного набора данных для композиции объектов. Процесс начинается с детекции объектов в больших наборах изображений, после чего извлекаются глубокие признаки идентичности для каждого объекта. Затем для каждого объекта происходит извлечение других объектов с высокой схожестью признаков.

Создание размеченного набора данных

Создание размеченного набора данных включает в себя несколько ключевых этапов:

Детекция объектов: Используется модель детекции для извлечения объектов с высокой уверенностью.
Извлечение признаков: Для каждого объекта извлекаются глубокие признаки с использованием специального энкодера, оптимизированного для задачи извлечения экземпляров.
Построение графа k-ближайших соседей: Для каждого объекта создается разреженный граф, в котором хранятся k наиболее похожих объектов.

Этот процесс позволяет создать набор данных, содержащий разнообразные объекты, каждый из которых имеет несколько видов, сцен, условий освещения и поз.

Описание сцены

Для вставки объекта в сцену необходимо извлечь фоновое изображение. В отличие от других методов, которые просто заменяют область объекта серыми пикселями или используют инпейнтинг, метод ObjectMate применяет модель удаления объектов, которая также удаляет тени и отражения объекта, сохраняя ценную информацию о фоне.

Архитектура модели

ObjectMate использует архитектуру диффузионной модели, которая обучается на созданном наборе данных для преобразования описаний сцен и видов объектов в составные изображения. Модель принимает на вход зашумленное изображение, ссылки на несколько видов объектов и описание сцены, после чего генерирует финальное изображение.

Обучение модели

Обучение модели осуществляется с использованием большого размеченного набора данных, что значительно упрощает задачу вставки объектов и генерации на основе текста. Даже простая архитектура диффузии, обученная на таком наборе данных, может достигать отличных результатов.

Эксперименты и результаты

В работе проведены обширные эксперименты для оценки эффективности метода ObjectMate в задачах вставки объектов и генерации на основе текста. Результаты показывают, что ObjectMate превосходит существующие методы по сохранению идентичности объектов и качеству композиции.

Оценка протоколов

Авторы вводят новые протоколы оценки, которые включают в себя создание нового набора данных для вставки объектов, а также метрики для более точного измерения сохранения идентичности объектов. Это позволяет более точно оценивать качество работы модели.

Заключение

Метод ObjectMate демонстрирует значительные достижения в области композиции объектов, предлагая новые подходы к сбору данных и обучению моделей. Введение объектного рецидивного приоритета открывает новые возможности для создания масштабных размеченных наборов данных, что, в свою очередь, улучшает качество генерации изображений.

Данная работа подчеркивает важность сохранения идентичности объектов и гармонизации их с окружающей средой, что является ключевым аспектом для успешного применения технологий генерации изображений в реальных сценариях. В будущем, дальнейшие исследования могут направляться на расширение возможностей метода, включая работу с человеческими субъектами и улучшение качества генерации в сложных сценариях.

Статья на arxiv Оригинал pdf composition generation dataset

Ай Дайджест