LoRA.rar: Эффективное объединение LoRA для генерации изображений с учетом стиля и содержания
Недавние достижения в моделях генерации изображений позволили производить персонализированное создание изображений с использованием как определенных пользователем объектов (содержания), так и стилей. Предыдущие работы достигали персонализации путем объединения соответствующих параметров адаптации низкого ранга (LoRA) через методы, основанные на оптимизации, которые требуют больших вычислительных ресурсов и не подходят для использования в реальном времени на устройствах с ограниченными ресурсами, таких как смартфоны. Чтобы решить эту проблему, мы представляем LoRA.rar, метод, который не только улучшает качество изображения, но и достигает замечательной ускорения более чем в 4000 раз в процессе объединения. LoRA.rar предварительно обучает гиперсеть на разнообразном наборе пар содержимого и стиля LoRA, изучая эффективную стратегию объединения, которая обобщается на новые, невидимые пары содержимого и стиля, позволяя быстрое и высококачественное персонализированное создание. Более того, мы выявляем ограничения существующих методов оценки качества содержимого и стиля и предлагаем новый протокол, использующий многомодальные большие языковые модели (MLLM) для более точной оценки. Наш метод значительно превосходит текущее состояние искусства как в точности содержания, так и в стилевой верности, как подтверждают оценки MLLM и человеческие оценки.