FashionComposer: Генерация Композиционных Модных Изображений

В эпоху электронной коммерции индустрия моды сталкивается с огромным количеством изображений одежды, представленных в магазинах. Для привлечения покупателей бренды часто нанимают моделей, чтобы продемонстрировать, как одежда выглядит на людях. Технология виртуальной примерки, предназначенная для генерации изображений конкретного человека в предоставленных нарядах, становится все более популярной. Однако существующие методы виртуальной примерки имеют значительные ограничения в гибкости и разнообразии, так как обычно позволяют примерять только одну вещь за раз и фиксируют позы, что ограничивает разнообразие форм тела и поз.

В ответ на эти вызовы был представлен FashionComposer — гибкий генератор модных изображений, который поддерживает многомодальные входные данные (текстовые подсказки, параметрические модели человека, изображения одежды и лица). Основной особенностью FashionComposer является композициональность, которая реализуется через возможность использования нескольких визуальных активов одновременно, что позволяет пользователю персонализировать внешний вид и позу человека, а также назначать несколько предметов одежды за один проход.

Архитектура FashionComposer

Многомодальные Входные Данные

FashionComposer принимает различные типы входных данных, что позволяет ему адаптироваться к различным задачам. Входные данные могут включать текстовые описания целевого модного изображения, параметрические модели человека, которые контролируют фигуру и позу, а также изображения одежды и лица. Это позволяет пользователям создавать более сложные и разнообразные изображения, чем в традиционных подходах, которые ограничиваются только одним типом входных данных.

Генерация Изображений

FashionComposer использует диффузионную модель как основу для генерации изображений. В частности, он строится на основе Stable Diffusion, которая включает в себя вариационный автокодировщик (VAE), денойзинговую UNet и текстовый энкодер. Текстовые подсказки кодируются в текстовые эмбеддинги, которые затем используются для управления процессом генерации изображений. Важно отметить, что FashionComposer использует уникальный подход к обработке многомодальных данных, что позволяет ему генерировать изображения с высоким качеством и детализацией.

Внимание к Объектам

Одной из ключевых инноваций FashionComposer является использование механизма "внимания к объектам" (subject-binding attention). Этот механизм связывает визуальные особенности различных компонентов изображения с соответствующими текстовыми описаниями. Это позволяет модели лучше понимать семантические связи между визуальными активами и текстом, что в свою очередь улучшает качество генерации.

Применения FashionComposer

FashionComposer поддерживает множество приложений, включая:

Генерация модных изображений: Пользователи могут создавать изображения, которые точно отражают их предпочтения в одежде и стиле.
Виртуальная примерка: FashionComposer позволяет пользователям примерять несколько предметов одежды одновременно, что значительно расширяет возможности виртуальной примерки.
Генерация альбомов: Модель может генерировать наборы изображений с одинаковой идентичностью человека, что полезно для создания портфолио или коллекций.

Сравнение с Существующими Методами

Существующие методы виртуальной примерки, такие как LaDIVTON и TryOnDiffusion, имеют свои ограничения, включая недостаточную гибкость и возможность работы только с одним предметом одежды. В отличие от них, FashionComposer демонстрирует выдающуюся способность к многомодальной генерации модных изображений, обеспечивая высокую детализацию и качество.

Преимущества FashionComposer

Композициональность: Возможность комбинировать несколько визуальных активов и текстовых подсказок для создания уникальных изображений.
Гибкость: Поддержка различных типов входных данных, что позволяет адаптировать модель к разным задачам.
Высокое качество генерации: Использование механизмов внимания и других технологий для обеспечения высокой детализации и реалистичности изображений.

Заключение

FashionComposer представляет собой значительный шаг вперед в области генерации модных изображений. Его способность обрабатывать многомодальные входные данные и поддерживать композициональность открывает новые горизонты для пользователей и разработчиков в сфере моды и виртуальной примерки. Эта модель не только улучшает качество и реалистичность изображений, но и расширяет возможности персонализации, что делает её ценным инструментом в современном мире моды.

Статья на arxiv Оригинал pdf generation image framework

Ай Дайджест