Ай Дайджест - категория fidelity

FreeScale: Разблокировка разрешения диффузионных моделей с помощью слияния масштабов без настройки

Визуальные диффузионные модели достигают замечательного прогресса, однако они обычно обучаются на ограниченных разрешениях из-за нехватки данных высокого разрешения и ограниченных вычислительных ресурсов, что сдерживает их способность генерировать изображения или видеоролики высокого качества на больших разрешениях. Недавние усилия исследовали стратегии без настройки, чтобы продемонстрировать неиспользованный потенциал генерации визуальных изображений более высокого разрешения с использованием предварительно обученных моделей. Однако эти методы все еще склонны к производству визуального контента низкого качества с повторяющимися паттернами. Ключевое препятствие заключается в неизбежном увеличении высокочастотной информации, когда модель генерирует визуальный контент, превышающий разрешение ее обучения, что приводит к нежелательным повторяющимся паттернам, возникшим из накопленных ошибок. Чтобы справиться с этой проблемой, мы предлагаем FreeScale, парадигму вывода без настройки, которая позволяет осуществлять генерацию визуального контента более высокого разрешения с помощью слияния масштабов. В частности, FreeScale обрабатывает информацию с разных восприимчивых масштабов, а затем сливает ее, извлекая необходимые частотные компоненты. Обширные эксперименты подтверждают превосходство нашей парадигмы в расширении возможностей генерации визуального контента более высокого разрешения как для моделей изображений, так и для видеомоделей. Особенно примечательно, что по сравнению с предыдущим лучшим методом, FreeScale впервые открывает возможность генерации изображений разрешением 8k.

2024-12-16models training resolution

InstanceCap: Улучшение генерации видео по тексту с помощью структурированных аннотаций с учётом экземпляров

Генерация текста в видео быстро развивалась в последние годы, демонстрируя замечательные результаты. Обучение обычно основывается на парных данных видео и субтитров, которые играют решающую роль в повышении производительности генерации. Однако текущие субтитры видео часто страдают от недостатка деталей, галлюцинаций и неточного отображения движений, что влияет на точность и согласованность сгенерированных видео. В этой работе мы предлагаем новую структуру субтитров, учитывающую экземпляры, названную InstanceCap, чтобы достичь уровня экземпляров и тонких деталей в субтитрах видео впервые. На основе этой схемы мы разрабатываем кластер вспомогательных моделей для преобразования оригинального видео в экземпляры для повышения точности экземпляров. Видеои экземпляры дополнительно используются для уточнения плотных подсказок в структурированные фразы, достигая лаконичных, но точных описаний. Более того, был собран набор данных 22K InstanceVid для обучения, а также предложен улучшенный конвейер, специально разработанный для структуры InstanceCap, для вывода. Экспериментальные результаты демонстрируют, что наша предложенная InstanceCap значительно превосходит предыдущие модели, обеспечивая высокую точность между субтитрами и видео, одновременно сокращая число галлюцинаций.

2024-12-16captioning modeling instance

Эффективное генеративное моделирование с использованием токенов на основе остаточной векторной квантизации

Мы исследуем использование остаточной векторной квантизации (RVQ) для генерации высокой точности в векторно-квантизированных генеративных моделях. Эта техника квантизации поддерживает более высокую точность данных, используя более глубокие токены. Однако увеличение числа токенов в генеративных моделях приводит к более медленным скоростям вывода. С этой целью мы представляем ResGen, эффективную дискретную модель диффузии на основе RVQ, которая генерирует образцы высокой точности без ущерба для скорости выборки. Наша ключевая идея заключается в прямом прогнозировании векторного представления коллективных токенов, а не отдельных. Более того, мы показываем, что предложенный нами метод маскирования токенов и прогнозирования нескольких токенов можно сформулировать в рамках обоснованной вероятностной модели, используя дискретный процесс диффузии и вариационное вывод. Мы подтверждаем эффективность и обобщаемость предложенного метода на двух сложных задачах в различных модальностях: условная генерация изображений на ImageNet 256x256 и синтез текста в речь без примеров. Экспериментальные результаты демонстрируют, что ResGen превосходит авторегрессионные аналоги в обеих задачах, обеспечивая превосходную производительность без ущерба для скорости выборки. Более того, по мере увеличения глубины RVQ наши генеративные модели демонстрируют повышенную точность генерации или более быстрые скорости выборки по сравнению с аналогичными базовыми моделями. Страница проекта доступна по адресу https://resgen-genai.github.io

2024-12-16quantization fidelity generative

LoRA.rar: Эффективное объединение LoRA для генерации изображений с учетом стиля и содержания

Недавние достижения в моделях генерации изображений позволили производить персонализированное создание изображений с использованием как определенных пользователем объектов (содержания), так и стилей. Предыдущие работы достигали персонализации путем объединения соответствующих параметров адаптации низкого ранга (LoRA) через методы, основанные на оптимизации, которые требуют больших вычислительных ресурсов и не подходят для использования в реальном времени на устройствах с ограниченными ресурсами, таких как смартфоны. Чтобы решить эту проблему, мы представляем LoRA.rar, метод, который не только улучшает качество изображения, но и достигает замечательной ускорения более чем в 4000 раз в процессе объединения. LoRA.rar предварительно обучает гиперсеть на разнообразном наборе пар содержимого и стиля LoRA, изучая эффективную стратегию объединения, которая обобщается на новые, невидимые пары содержимого и стиля, позволяя быстрое и высококачественное персонализированное создание. Более того, мы выявляем ограничения существующих методов оценки качества содержимого и стиля и предлагаем новый протокол, использующий многомодальные большие языковые модели (MLLM) для более точной оценки. Наш метод значительно превосходит текущее состояние искусства как в точности содержания, так и в стилевой верности, как подтверждают оценки MLLM и человеческие оценки.

2024-12-11generation image metrics

Virtual Try-Off: Новый Подход к Генерации Изображений Одежды с Использованием Диффузионных Моделей

В данной статье представлен Virtual Try-Off (VTOFF), новая задача, сосредоточенная на генерации стандартизированных изображений одежды из одиночных фотографий одетых людей. В отличие от традиционного виртуального примерки (VTON), который цифровым образом одевает моделей, VTOFF стремится извлечь каноническое изображение одежды, что ставит уникальные задачи в захвате формы, текстуры и сложных узоров одежды. Эта четко определенная цель делает VTOFF особенно эффективным для оценки точности реконструкции в генеративных моделях. Мы представляем TryOffDiff, модель, которая адаптирует Stable Diffusion с визуальной кондиционированием на основе SigLIP, чтобы обеспечить высокую точность и сохранение деталей. Эксперименты на модифицированном наборе данных VITON-HD показывают, что наш подход превосходит базовые методы, основанные на переносе поз и виртуальной примерке, с меньшим количеством шагов предварительной и последующей обработки. Наш анализ показывает, что традиционные метрики генерации изображений недостаточно хорошо оценивают качество реконструкции, что побуждает нас полагаться на DISTS для более точной оценки. Наши результаты подчеркивают потенциал VTOFF для улучшения изображения продукции в приложениях электронной коммерции, продвижения оценки генеративных моделей и вдохновения будущей работы по высокоточной реконструкции. Демонстрация, код и модели доступны по адресу: https://rizavelioglu.github.io/tryoffdiff/.

2024-11-29reconstruction vton generation

AnchorCrafter: Создание Интерактивных Видео с Кибер-Анкорами для Продвижения Товаров

Автоматическая генерация видео продвижения товаров в стиле анкоров открывает перспективные возможности в онлайн-коммерции, рекламе и взаимодействии с потребителями. Однако, несмотря на значительные достижения в генерации видео человека под руководством поз, это остается сложной задачей. В решении этой проблемы мы определяем интеграцию взаимодействий между человеком и объектом (HOI) в генерацию видео человека под руководством поз как ключевой вопрос. Для этого мы представляем AnchorCrafter, новую систему на основе диффузии, предназначенную для создания 2D-видео с участием конкретного человека и кастомизированного объекта, достигая высокой визуальной точности и управляемых взаимодействий. В частности, мы предлагаем два ключевых новшества: восприятие внешности HOI, которое улучшает распознавание внешнего вида объекта с произвольных многоплановых перспектив и разделяет внешность объекта и человека, и инъекцию движения HOI, которая позволяет сложным взаимодействиям между человеком и объектом, преодолевая вызовы в условиях траектории объекта и управлении взаимными перекрытиями. Кроме того, мы вводим потерю перераспределения веса регионов HOI, учебную цель, которая улучшает изучение деталей объекта. Многочисленные эксперименты демонстрируют, что наша предложенная система превосходит существующие методы в сохранении внешнего вида и осведомленности о форме объекта, одновременно поддерживая согласованность внешнего вида и движения человека. Страница проекта: https://cangcz.github.io/Anchor-Crafter/

2024-11-27recognition fidelity video