Fashion-VDM: Видео Диффузионная Модель для Виртуальной Примерки
В современном мире, где онлайн-шоппинг и социальные сети играют ключевую роль в маркетинге одежды, виртуальная примерка становится все более востребованной. Мы представляем Fashion-VDM, инновационную видео диффузионную модель (VDM), предназначенную для создания видео виртуальной примерки одежды. Fashion-VDM позволяет пользователям видеть, как одежда будет выглядеть на них с разных углов и в движении, что значительно улучшает покупательский опыт.
Виртуальная примерка одежды на видео (VVT) представляет собой сложную задачу, требующую синтеза реалистичных кадров, где одежда накладывается на движущееся изображение человека. Это включает в себя:
- Синтез реалистичных кадров: Каждый кадр видео должен выглядеть как настоящий, с правильным наложением одежды на человека, учитывая его позу и движение.
- Временная согласованность: Одежда должна выглядеть естественно и последовательно на протяжении всего видео, что требует учета динамики ткани, таких как складки и морщины.
- Обработка окклюзий: При значительных изменениях позы человека, части одежды могут быть скрыты, и модель должна корректно восстанавливать эти скрытые области.
- Ограниченные данные: Сбор качественных данных для обучения модели является сложным и дорогим, так как требуется видео, где люди носят одну и ту же одежду и двигаются одинаково.
Предыдущие подходы
Ранее виртуальная примерка на изображениях показала впечатляющие результаты, однако методы VVT часто страдают от недостаточной детализации одежды и временной несогласованности. Традиционные методы использовали плотные поля потока для явного перемещения пикселей одежды на кадры с человеком, но эти подходы имеют несколько недостатков:
- Артефакты: Окклюзии и большие изменения позы могут привести к артефактам в изображении.
- Нереалистичные детали ткани: Методы на основе потока не могут точно воспроизводить динамику ткани, такую как складки и морщины.
Fashion-VDM
Fashion-VDM представляет собой прорыв в области VVT благодаря следующим инновациям:
Архитектура
Fashion-VDM использует архитектуру, основанную на диффузионных моделях, которая позволяет:
- Временную согласованность: Введение 3D-сверток и временного внимания в архитектуру UNet для поддержания временной последовательности кадров.
- Увеличение детализации одежды: Использование разделенной бесплатной классификации (split-CFG) для усиления контроля над входными данными.
Обучение
- Прогрессивное временное обучение: Модель обучается на видео различной длины, начиная с коротких и постепенно увеличивая их длину, что позволяет генерировать видео длиной до 64 кадров за один проход.
- Совместное обучение на изображениях и видео: Это помогает улучшить детализацию одежды и реализм, особенно когда видео данных недостаточно.
Результаты
Наши эксперименты показывают, что Fashion-VDM превосходит существующие методы по следующим показателям:
- FID (Frechet Inception Distance): Измеряет реализм сгенерированных кадров.
- FVD (Frechet Video Distance): Оценивает временную согласованность видео.
- CLIP: Оценивает точность наложения одежды.
Заключение
Fashion-VDM предлагает новый уровень реализма и функциональности для виртуальной примерки одежды на видео. Используя инновационные подходы к обучению и архитектуре, мы создали модель, которая может генерировать высококачественные видео, сохраняя при этом идентичность и движение человека, а также детализацию одежды. Это открывает новые возможности для онлайн-шоппинга и маркетинга, делая процесс покупки одежды более интерактивным и информативным.