EasyRef: Новый Подход к Генерации Изображений с Множественными Ссылками
В области персонализации диффузионных моделей достигнуты значительные успехи. Обычные методы без настройки в основном кодируют несколько эталонных изображений, усредняя их встраивания, что служит условием инъекции. Однако такая независимая от изображения операция не может взаимодействовать между изображениями, чтобы зафиксировать последовательные визуальные элементы в нескольких эталонных изображениях. Хотя основанная на настройках низкоранговая адаптация (LoRA) эффективно извлекает последовательные элементы из нескольких изображений в процессе обучения, она требует конкретной тонкой настройки для каждой отдельной группы изображений. В данной статье представлена EasyRef, новый метод адаптации «включи и работай», который позволяет диффузионным моделям опираться на несколько эталонных изображений и текстовый запрос. Для эффективного использования последовательных визуальных элементов из нескольких изображений, мы используем способности многомодальной большой языковой модели (MLLM) к пониманию множества изображений и следованию инструкциям, побуждая её захватывать последовательные визуальные элементы на основе инструкции. Кроме того, инъекция представлений MLLM в процесс диффузии через адаптеры может легко обобщаться на невидимые домены, извлекая последовательные визуальные элементы из невидимых данных. Чтобы смягчить вычислительные затраты и повысить сохранение детализированных деталей, мы представляем эффективную стратегию агрегации ссылок и прогрессивную схему обучения. Наконец, мы представляем MRBench, новую модель для генерации изображений с несколькими ссылками. Экспериментальные результаты показывают, что EasyRef превосходит как методы без настройки, такие как IP-Adapter, так и методы на основе настройки, такие как LoRA, достигая превосходного эстетического качества и надежной обобщаемости нулевых шотов в самых разных областях.