Virtual Try-Off: Новый Подход к Генерации Изображений Одежды с Использованием Диффузионных Моделей

В последние годы виртуальные технологии, такие как виртуальная примерка (VTON), стали важной частью индустрии моды и электронной коммерции. Эти технологии позволяют пользователям визуализировать, как одежда будет выглядеть на них, что значительно улучшает опыт покупок. Однако традиционные подходы к виртуальной примерке требуют наличия нескольких изображений: одного с одеждой и другого с человеком, который должен быть "одет". Это создает дополнительные сложности, так как модель не имеет полного доступа к информации о предмете одежды. В этой статье мы представим новый подход, называемый Virtual Try-Off (VTOFF), который фокусируется на создании стандартизированных изображений одежды из одиночных фотографий одетых людей.

Задача Virtual Try-Off (VTOFF)

Задача VTOFF заключается в генерации стандартизированных изображений одежды из фотографий людей, на которых они уже одеты. В отличие от традиционного VTON, где создается изображение человека в новой одежде, VTOFF нацелена на извлечение канонического изображения одежды. Это представляет собой уникальные вызовы в захвате формы, текстуры и сложных узоров одежды. Четко определенная цель делает VTOFF особенно эффективной для оценки точности реконструкции в генеративных моделях.

Модель TryOffDiff

Мы представляем модель TryOffDiff, которая адаптирует Stable Diffusion с использованием визуального кондиционирования на основе SigLIP для обеспечения высокой точности и сохранения деталей. Основная идея заключается в том, чтобы заменить текстовые подсказки в традиционных диффузионных моделях на визуальные признаки, извлеченные из входного изображения. Это позволяет модели генерировать изображения одежды, которые соответствуют коммерческим стандартам.

Архитектура

TryOffDiff использует архитектуру, основанную на Stable Diffusion, которая позволяет эффективно обрабатывать визуальные данные. Важным аспектом является использование SigLIP для извлечения визуальных признаков из входного изображения. Эти признаки затем обрабатываются адаптером и интегрируются в U-Net модели, что позволяет модели фокусироваться на специфических деталях одежды.

Эксперименты и Результаты

Мы провели эксперименты на модифицированном наборе данных VITON-HD, который включает в себя высококачественные изображения одетых людей и соответствующие изображения одежды. Результаты показали, что наш подход превосходит базовые методы, основанные на переносе позы и виртуальной примерке, с меньшими требованиями к предварительной и последующей обработке.

Оценка Качества

Для оценки качества реконструкции мы используем DISTS, который более точно отражает восприятие человеком визуального качества, чем традиционные метрики, такие как SSIM или FID. DISTS учитывает как структурные, так и текстурные элементы изображения, что делает его более подходящим для задач, связанных с реконструкцией одежды.

Применения VTOFF

Потенциальное влияние VTOFF значительно выходит за рамки исследований. Он может улучшить гибкость различных приложений электронной коммерции, которые зависят от согласованных изображений продуктов. Например, сгенерированные изображения могут быть интегрированы в существующие решения виртуальной примерки, позволяя более сложную примерку от человека к человеку, заменяя истинные изображения одежды на сгенерированные.

Заключение

В данной статье мы представили VTOFF как новую задачу, ориентированную на создание стандартизированных изображений одежды из реальных фотографий. Мы продемонстрировали, что TryOffDiff, наша специально разработанная модель, превосходит существующие методы в точности реконструкции и сохранении деталей. Мы надеемся, что наш подход станет основой для дальнейших исследований в области генеративных моделей и их применения в индустрии моды.

Статья на arxiv Оригинал pdf fidelity generation reconstruction

Ай Дайджест