Свежая выжимка ml и AI статей - каждый день
С недавними достижениями в области диффузионных моделей, создание визуально впечатляющих изображений стало более доступным и точным. Однако, несмотря на значительные успехи, существующие методы персонализации, основанные на небольшом количестве ссылочных изображений, сталкиваются с определенными ограничениями. В данной статье мы рассмотрим новый метод EasyRef, который предлагает более эффективный способ генерации изображений, используя множественные ссылки и текстовые подсказки.
Традиционные методы, такие как LoRA (Low-Rank Adaptation) и IP-Adapter, имеют свои ограничения. LoRA требует специфической настройки для каждой группы изображений, что делает его менее универсальным. IP-Adapter, в свою очередь, использует усреднение векторных представлений изображений, что приводит к проблемам с пространственным согласованием и не позволяет эффективно извлекать согласованные визуальные элементы из нескольких ссылок.
EasyRef представляет собой новый подход, который позволяет диффузионным моделям адаптироваться к множественным ссылочным изображениям и текстовым подсказкам. Этот метод использует мультимодальные большие языковые модели (MLLM) для захвата и обработки визуальных элементов, что позволяет значительно улучшить качество генерируемых изображений.
В отличие от традиционных методов, которые усредняют векторные представления, EasyRef использует способности MLLM для обработки множественных ссылок. Это позволяет лучше захватывать согласованные визуальные элементы, что критически важно для генерации качественных изображений.
При увеличении числа ссылочных изображений возрастает и количество визуальных токенов, что может привести к увеличению вычислительных затрат. EasyRef использует обучаемые токены для представления ссылок, что позволяет значительно сократить вычислительные затраты, сохраняя при этом качество генерации.
EasyRef включает в себя три этапа обучения:
Эксперименты показывают, что EasyRef превосходит как методы без настройки, такие как IP-Adapter, так и методы с настройкой, такие как LoRA, по множеству метрик, включая эстетическое качество и обобщение на невидимые данные.
Для оценки эффективности EasyRef был создан новый бенчмарк MRBench, который включает в себя множество групп изображений и текстовых подсказок. MRBench позволяет объективно сравнивать различные методы генерации изображений и служит основой для будущих исследований в этой области.
EasyRef представляет собой значительный шаг вперед в области генерации изображений с использованием множественных ссылок. Этот метод не только улучшает качество генерируемых изображений, но и обеспечивает большую универсальность и обобщение на новые данные. Внедрение мультимодальных языковых моделей открывает новые горизонты для дальнейших исследований и разработок в области генерации изображений и искусственного интеллекта.