EasyRef: Новый Подход к Генерации Изображений с Множественными Ссылками

С недавними достижениями в области диффузионных моделей, создание визуально впечатляющих изображений стало более доступным и точным. Однако, несмотря на значительные успехи, существующие методы персонализации, основанные на небольшом количестве ссылочных изображений, сталкиваются с определенными ограничениями. В данной статье мы рассмотрим новый метод EasyRef, который предлагает более эффективный способ генерации изображений, используя множественные ссылки и текстовые подсказки.

Проблематика Существующих Подходов

Традиционные методы, такие как LoRA (Low-Rank Adaptation) и IP-Adapter, имеют свои ограничения. LoRA требует специфической настройки для каждой группы изображений, что делает его менее универсальным. IP-Adapter, в свою очередь, использует усреднение векторных представлений изображений, что приводит к проблемам с пространственным согласованием и не позволяет эффективно извлекать согласованные визуальные элементы из нескольких ссылок.

EasyRef: Обзор

EasyRef представляет собой новый подход, который позволяет диффузионным моделям адаптироваться к множественным ссылочным изображениям и текстовым подсказкам. Этот метод использует мультимодальные большие языковые модели (MLLM) для захвата и обработки визуальных элементов, что позволяет значительно улучшить качество генерируемых изображений.

Основные Компоненты

Предобученная Диффузионная Модель: Используется для условной генерации изображений.
Мультимодальная Большая Языковая Модель (MLLM): Кодирует набор ссылочных изображений и текстовую подсказку.
Проектор Условий: Отвечает за преобразование представлений из MLLM в латентное пространство диффузионной модели.
Обучаемые Адаптеры: Интегрируют векторные представления изображений в процесс диффузии.

Методология

Обработка Ссылочных Изображений

В отличие от традиционных методов, которые усредняют векторные представления, EasyRef использует способности MLLM для обработки множественных ссылок. Это позволяет лучше захватывать согласованные визуальные элементы, что критически важно для генерации качественных изображений.

Эффективная Агрегация Ссылок

При увеличении числа ссылочных изображений возрастает и количество визуальных токенов, что может привести к увеличению вычислительных затрат. EasyRef использует обучаемые токены для представления ссылок, что позволяет значительно сократить вычислительные затраты, сохраняя при этом качество генерации.

Прогрессивная Стратегия Обучения

EasyRef включает в себя три этапа обучения:

Предварительное Обучение: Оптимизация модели на большом наборе данных изображений и текстов.
Финетюнинг на Одном Изображении: Адаптация модели для более точной обработки визуальных деталей.
Финетюнинг на Множественных Изображениях: Обучение модели на группах изображений для улучшения согласованности и качества генерации.

Экспериментальные Результаты

Эксперименты показывают, что EasyRef превосходит как методы без настройки, такие как IP-Adapter, так и методы с настройкой, такие как LoRA, по множеству метрик, включая эстетическое качество и обобщение на невидимые данные.

MRBench: Новый Бенчмарк

Для оценки эффективности EasyRef был создан новый бенчмарк MRBench, который включает в себя множество групп изображений и текстовых подсказок. MRBench позволяет объективно сравнивать различные методы генерации изображений и служит основой для будущих исследований в этой области.

Заключение

EasyRef представляет собой значительный шаг вперед в области генерации изображений с использованием множественных ссылок. Этот метод не только улучшает качество генерируемых изображений, но и обеспечивает большую универсальность и обобщение на новые данные. Внедрение мультимодальных языковых моделей открывает новые горизонты для дальнейших исследований и разработок в области генерации изображений и искусственного интеллекта.

Статья на arxiv Оригинал pdf personalization diffusion benchmark

Ай Дайджест