Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "image"

FashionComposer: Генерация Композиционных Модных Изображений

Мы представляем FashionComposer для генерации композиционных модных изображений. В отличие от прежних методов, FashionComposer обладает высокой гибкостью. Он принимает многомодульный ввод (т.е. текстовый запрос, параметрическую модель человека, изображение одежды и изображение лица) и поддерживает персонализацию внешнего вида, позы и фигуры человека, а также назначение нескольких предметов одежды за один проход. Для достижения этого мы сначала развиваем универсальную структуру, способную обрабатывать различные входные модули. Мы строим масштабированные учебные данные, чтобы улучшить надежные композиционные способности модели. Чтобы бесшовно интегрировать несколько изображений-ссылок (одежды и лиц), мы организуем эти ссылки в одном изображении как «библиотеку активов» и используем UNet ссылок для извлечения внешних характеристик. Чтобы ввести внешние характеристики в правильные пиксели в сгенерированном результате, мы предлагаем привязку внимания к субъекту. Она связывает внешние характеристики из разных «активов» с соответствующими текстовыми характеристиками. Таким образом, модель может понимать каждый актив в соответствии с их семантикой, поддерживая произвольные числа и типы изображений-ссылок. Как комплексное решение, FashionComposer также поддерживает многие другие приложения, такие как генерация альбома человека, различные виртуальные задания по примерке и т.д.

Защита от подражания с использованием персонализированных диффузионных моделей

Недавние достижения в моделях диффузии революционизируют генерацию изображений, но представляют собой риски неправильного использования, такие как воспроизведение художественных произведений или создание дипфейков. Существующие методы защиты изображений, хотя и эффективны, испытывают трудности с балансировкой эффективности защиты, невидимости и задержки, что ограничивает практическое применение. Мы представляем предварительное обучение с помехами для снижения задержки и предлагаем подход смешивания помех, который динамически адаптируется к входным изображениям для минимизации ухудшения производительности. Наша новая стратегия обучения вычисляет потерю защиты в нескольких пространствах признаков VAE, в то время как адаптивная целевая защита на этапе вывода повышает надежность и невидимость. Эксперименты показывают сопоставимую эффективность защиты с улучшенной невидимостью и значительно сокращенным временем вывода. Код и демонстрация доступны по адресу https://webtoon.github.io/impasto

Генерация Изображений Людей с Контролем Параметров: Метод Leffa

Генерация изображений управляемых людей направлена на создание изображений человека, основанных на эталонных изображениях, позволяя точно контролировать внешний вид или позу человека. Однако предыдущие методы часто искажают детализированные текстурные данные из эталонного изображения, несмотря на достижение высокого общего качества изображения. Мы связываем эти искажения с недостаточным вниманием к соответствующим регионам в эталонном изображении. Чтобы решить эту проблему, мы предлагаем обучение полям потока внимания (Leffa), которое явно направляет целевой запрос на правильный эталонный ключ в слое внимания во время обучения. В частности, это реализуется через регуляризационную потерю на основе карты внимания внутри базовой модели на основе диффузии. Наши обширные эксперименты показывают, что Leffa достигает передовых результатов в контроле внешнего вида (виртуальная примерка) и позы (передача позы), значительно уменьшая искажения тонких деталей, при этом сохраняя высокое качество изображения. Кроме того, мы показываем, что наша потеря является независимой от модели и может быть использована для улучшения производительности других моделей диффузии.

LoRA.rar: Эффективное объединение LoRA для генерации изображений с учетом стиля и содержания

Недавние достижения в моделях генерации изображений позволили производить персонализированное создание изображений с использованием как определенных пользователем объектов (содержания), так и стилей. Предыдущие работы достигали персонализации путем объединения соответствующих параметров адаптации низкого ранга (LoRA) через методы, основанные на оптимизации, которые требуют больших вычислительных ресурсов и не подходят для использования в реальном времени на устройствах с ограниченными ресурсами, таких как смартфоны. Чтобы решить эту проблему, мы представляем LoRA.rar, метод, который не только улучшает качество изображения, но и достигает замечательной ускорения более чем в 4000 раз в процессе объединения. LoRA.rar предварительно обучает гиперсеть на разнообразном наборе пар содержимого и стиля LoRA, изучая эффективную стратегию объединения, которая обобщается на новые, невидимые пары содержимого и стиля, позволяя быстрое и высококачественное персонализированное создание. Более того, мы выявляем ограничения существующих методов оценки качества содержимого и стиля и предлагаем новый протокол, использующий многомодальные большие языковые модели (MLLM) для более точной оценки. Наш метод значительно превосходит текущее состояние искусства как в точности содержания, так и в стилевой верности, как подтверждают оценки MLLM и человеческие оценки.

SwiftEdit: Молниеносное текстовое редактирование изображений с помощью одношагового диффузионного подхода

Недавние достижения в редактировании изображений по текстовому запросу позволяют пользователям вносить изменения в изображения с помощью простых текстовых вводов, используя обширные предварительные данные многошаговых диффузионных текстово-изображенческих моделей. Однако эти методы часто не соответствуют требованиям скорости, необходимым для реальных приложений и приложений на устройствах, из-за дорогостоящего многошагового процесса инверсии и выборки. В ответ на это мы представляем SwiftEdit, простой, но очень эффективный инструмент редактирования, который обеспечивает мгновенное редактирование изображений по текстовому запросу (за 0,23 с). Преимущество SwiftEdit заключается в двух новых вкладах: рамке одношаговой инверсии, которая обеспечивает одношаговую реконструкцию изображения посредством инверсии, и технике редактирования с маской с нашим предложенным механизмом повторного масштабирования внимания для выполнения локализованного редактирования изображений. Проведены обширные эксперименты, чтобы продемонстрировать эффективность и скорость работы SwiftEdit. В частности, SwiftEdit обеспечивает мгновенное редактирование изображений по текстовому запросу, которое в несколько раз быстрее предыдущих многошаговых методов (как минимум в 50 раз быстрее) при этом сохраняя конкурентоспособные результаты редактирования. Страница нашего проекта: https://swift-edit.github.io/.

V,ARCO,-V,ISION: Расширение границ корейских моделей "визуальный-язык"

В этой статье мы представляем открытый корейско-английский модель зрения-языка (VLM) под названием VARCO-VISION. Мы включаем пошаговую стратегию обучения, которая позволяет модели изучать как лингвистическую, так и визуальную информацию, сохраняя при этом знания базовой модели. Наша модель демонстрирует выдающиеся результаты в различных условиях, требующих двуязычного понимания и генерации изображений и текста по сравнению с моделями аналогичного размера. VARCO-VISION также способна на привязку, ссылки и оптическое распознавание знаков (OCR), расширяя свои возможности и потенциальные применения для реальных сценариев. В дополнение к модели мы выпускаем пять корейских датасетов для оценки, включая четыре закрытых и один открытый бенчмарк. Мы ожидаем, что наша веха расширит возможности для исследователей ИИ, стремящихся обучать VLM. VARCO-VISION доступна по ссылке https://huggingface.co/NCSOFT/VARCO-VISION-14B.