Ай Дайджест - категория frequency

Генерация видео с сохранением идентичности на основе текстовых описаний с использованием частотной декомпозиции

Создание видео с сохранением идентичности (IPT2V) стремится создавать высококачественные видео с последовательной человеческой идентичностью. Это важная задача в генерации видео, но она остается нерешенной проблемой для генеративных моделей. Эта статья продвигает техническую грань IPT2V в двух направлениях, которые не были разрешены в литературе: (1) Конвейер без настройки, без утомительной настройки случая за случаем, и (2) Эвристическая схема управления на основе DiT с учетом частот, сохраняющая идентичность. Мы предлагаем ConsisID, контролируемую модель IPT2V на основе DiT без настройки, чтобы сохранить человеческую идентичность последовательной в созданном видео. Вдохновленные предыдущими находками в частотном анализе диффузионных трансформеров, мы используем сигналы управления идентичностью в частотной области, где черты лица могут быть разложены на глобальные черты с низкой частотой и внутренние черты с высокой частотой. Во-первых, с точки зрения низкой частоты, мы вводим глобальный экстрактор лица, который кодирует эталонные изображения и ключевые точки лица в латентном пространстве, создавая признаки, обогащенные информацией с низкой частотой. Эти признаки затем интегрируются в поверхностные слои сети, чтобы облегчить трудности обучения, связанные с DiT. Во-вторых, с точки зрения высокой частоты, мы разрабатываем локальный экстрактор лица, чтобы уловить детали с высокой частотой и внедрить их в блоки трансформеров, улучшая способность модели сохранять тонкие признаки. Мы предлагаем иерархическую стратегию обучения, чтобы использовать информацию о частоте для сохранения идентичности, трансформируя обычную предобученную модель генерации видео в модель IPT2V. Обширные эксперименты показывают, что наша эвристическая схема с учетом частот предоставляет оптимальное решение для контроля моделей на основе DiT. Благодаря этой схеме наш ConsisID генерирует высококачественные видео с сохранением идентичности, делая шаги к более эффективному IPT2V.

2024-11-28control training generative

FitDiT: Прорыв в Виртуальной Примерке с Учетом Деталей и Размеров Одежды

Хотя технология виртуальной примерки на основе изображений достигла значительного прогресса, новые подходы все еще сталкиваются с вызовами при создании высококачественных и надежных изображений подгонки в разных сценариях. Эти методы часто испытывают трудности с такими аспектами, как сохранение текстуры и подгонка по размеру, что ограничивает их общую эффективность. Для решения этих проблем мы предлагаем новую технику улучшения восприятия одежды, названную FitDiT, разработанную для высокоточной виртуальной примерки с использованием Diffusion Transformers (DiT), которые выделяют больше параметров и внимания на высокоразрешенные характеристики. Во-первых, для дальнейшего улучшения сохранения текстуры мы вводим экстрактор текстуры одежды, который включает в себя эволюцию приоритетов одежды для тонкой настройки характеристик одежды, что помогает лучше улавливать богатые детали, такие как полоски, узоры и текст. Кроме того, мы вводим обучение в частотной области, настраивая потерю расстояния в частотной области для улучшения деталей одежды с высокой частотой. Для решения проблемы подгонки по размеру мы используем стратегию расширенной-расслабленной маски, которая адаптируется к правильной длине одежды, предотвращая создание одежды, заполняющей всю маскированную область при примерке через категории. Оснащенный вышеуказанным дизайном, FitDiT превосходит все базовые модели как по качественным, так и по количественным оценкам. Он превосходно справляется с созданием хорошо сидящей одежды с фотореалистичными и сложными деталями, при этом достигая конкурентоспособных времен вывода 4.57 секунды для одного изображения 1024x768 после оптимизации структуры DiT, превосходя существующие методы.

2024-11-19frequency transformer evaluation