ObjectMate: Новый подход к вставке объектов и генерации изображений
В этой статье представлен метод без настройки для вставки объектов и генерации на основе предмета. Задача заключается в том, чтобы создать объект, имея несколько ракурсов, в сцене, заданной либо изображением, либо текстом. Существующие методы испытывают трудности с полным выполнением сложных целей задачи: (i) бесшовное внедрение объекта в сцену с фотореалистичной позой и освещением, и (ii) сохранение идентичности объекта. Мы предполагаем, что для достижения этих целей требуется крупномасштабное обучение, но сбор достаточных данных вручную просто слишком дорог. Ключевое наблюдение в этой статье заключается в том, что многие массово производимые объекты повторяются на нескольких изображениях больших разметок данных, в разных сценах, позах и условиях освещения. Мы используем это наблюдение для создания массового обучения, извлекая наборы разнообразных видов одного и того же объекта. Этот мощный парный набор данных позволяет нам обучить простую архитектуру диффузии текста в изображение, чтобы сопоставить описания объекта и сцены с составным изображением. Мы сравниваем наш метод, ObjectMate, с современными методами вставки объектов и генерации на основе предмета, используя одну или несколько ссылок. Эмпирически, ObjectMate достигает превосходного сохранения идентичности и более фотореалистичной композиции. В отличие от многих других методов с несколькими ссылками, ObjectMate не требует медленной настройки во время тестирования.