Свежая выжимка ml и AI статей - каждый день
Виртуальная примерка одежды (VTON) становится все более популярной благодаря росту электронной коммерции, предлагая пользователям возможность визуализировать, как будет выглядеть одежда на них, без необходимости физического примерки. Несмотря на значительный прогресс в этой области, существующие методы сталкиваются с рядом проблем, особенно в области сохранения текстуры и точности подгонки по размеру. В этом контексте, FitDiT представляет собой инновационный подход, использующий Diffusion Transformers (DiT) для улучшения качества виртуальной примерки.
Одной из ключевых проблем в виртуальной примерке является сохранение текстуры одежды, включая сложные узоры, текст и полосы. Традиционные методы на основе U-Net часто не уделяют достаточно внимания высокому разрешению латентных признаков, что приводит к потере деталей.
Решение:
Другая проблема - это подгонка одежды по размеру, особенно при примерке одежды из разных категорий или при несоответствии размеров.
Решение:
FitDiT использует параллельную архитектуру с двумя ветвями:
Уменьшение структуры:
Модуляция условий одежды:
Инъекция признаков одежды:
FitDiT превосходит все базовые модели как в качественном, так и в количественном отношении. Он способен генерировать изображения с высокой степенью реализма и точности в деталях одежды.
После оптимизации структуры, FitDiT достигает конкурентоспособного времени вывода - 4.57 секунды для обработки одного изображения разрешением 1024×768, что делает его более эффективным по сравнению с существующими методами.
Эксперименты проводились на нескольких датасетах, включая VITON-HD и DressCode, а также на специально собранном датасете CVDD, который содержит изображения с сложными текстурами одежды. FitDiT показал превосходные результаты по всем метрикам, включая SSIM, LPIPS, FID и KID.
FitDiT представляет собой значительный шаг вперед в области виртуальной примерки одежды, предлагая решения для сохранения текстуры и точной подгонки по размеру. Использование Diffusion Transformers с акцентом на высокое разрешение и специализированные методы обучения позволяет достигать фотореалистичных результатов, что открывает новые возможности для применения виртуальной примерки в реальных условиях.