Fashion-VDM: Видео Диффузионная Модель для Виртуальной Примерки

В современном мире, где онлайн-шоппинг и социальные сети играют ключевую роль в маркетинге одежды, виртуальная примерка становится все более востребованной. Мы представляем Fashion-VDM, инновационную видео диффузионную модель (VDM), предназначенную для создания видео виртуальной примерки одежды. Fashion-VDM позволяет пользователям видеть, как одежда будет выглядеть на них с разных углов и в движении, что значительно улучшает покупательский опыт.

Виртуальная примерка одежды на видео (VVT) представляет собой сложную задачу, требующую синтеза реалистичных кадров, где одежда накладывается на движущееся изображение человека. Это включает в себя:

Синтез реалистичных кадров: Каждый кадр видео должен выглядеть как настоящий, с правильным наложением одежды на человека, учитывая его позу и движение.
Временная согласованность: Одежда должна выглядеть естественно и последовательно на протяжении всего видео, что требует учета динамики ткани, таких как складки и морщины.
Обработка окклюзий: При значительных изменениях позы человека, части одежды могут быть скрыты, и модель должна корректно восстанавливать эти скрытые области.
Ограниченные данные: Сбор качественных данных для обучения модели является сложным и дорогим, так как требуется видео, где люди носят одну и ту же одежду и двигаются одинаково.

Предыдущие подходы

Ранее виртуальная примерка на изображениях показала впечатляющие результаты, однако методы VVT часто страдают от недостаточной детализации одежды и временной несогласованности. Традиционные методы использовали плотные поля потока для явного перемещения пикселей одежды на кадры с человеком, но эти подходы имеют несколько недостатков:

Артефакты: Окклюзии и большие изменения позы могут привести к артефактам в изображении.
Нереалистичные детали ткани: Методы на основе потока не могут точно воспроизводить динамику ткани, такую как складки и морщины.

Fashion-VDM

Fashion-VDM представляет собой прорыв в области VVT благодаря следующим инновациям:

Архитектура

Fashion-VDM использует архитектуру, основанную на диффузионных моделях, которая позволяет:

Временную согласованность: Введение 3D-сверток и временного внимания в архитектуру UNet для поддержания временной последовательности кадров.
Увеличение детализации одежды: Использование разделенной бесплатной классификации (split-CFG) для усиления контроля над входными данными.

Обучение

Прогрессивное временное обучение: Модель обучается на видео различной длины, начиная с коротких и постепенно увеличивая их длину, что позволяет генерировать видео длиной до 64 кадров за один проход.
Совместное обучение на изображениях и видео: Это помогает улучшить детализацию одежды и реализм, особенно когда видео данных недостаточно.

Результаты

Наши эксперименты показывают, что Fashion-VDM превосходит существующие методы по следующим показателям:

FID (Frechet Inception Distance): Измеряет реализм сгенерированных кадров.
FVD (Frechet Video Distance): Оценивает временную согласованность видео.
CLIP: Оценивает точность наложения одежды.

Заключение

Fashion-VDM предлагает новый уровень реализма и функциональности для виртуальной примерки одежды на видео. Используя инновационные подходы к обучению и архитектуре, мы создали модель, которая может генерировать высококачественные видео, сохраняя при этом идентичность и движение человека, а также детализацию одежды. Это открывает новые возможности для онлайн-шоппинга и маркетинга, делая процесс покупки одежды более интерактивным и информативным.

Статья на arxiv Оригинал pdf diffusion video temporal