Свежая выжимка ml и AI статей - каждый день
Современные достижения в области генерации изображений на основе текстовых описаний, особенно с использованием моделей, основанных на диффузионных процессах, открывают новые горизонты для персонализированной генерации изображений. В частности, пользователи могут создавать изображения, отображающие конкретные объекты или стили, предоставляя всего несколько эталонных изображений. Ключевым элементом этого прогресса является метод низкоранговой адаптации (LoRA), который позволяет эффективно настраивать параметры моделей для достижения высококачественной персонализации.
Однако существующие методы объединения параметров LoRA, такие как ZipLoRA, требуют значительных вычислительных ресурсов и времени, что делает их непрактичными для использования на устройствах с ограниченными ресурсами, таких как смартфоны. В этой статье мы представляем метод LoRA.rar, который не только улучшает качество изображений, но и обеспечивает впечатляющее ускорение процесса объединения, достигая более чем 4000-кратного увеличения скорости.
LoRA.rar использует гиперсеть для предсказания коэффициентов объединения для пар LoRA, представляющих содержание и стиль. Гиперсеть предварительно обучается на разнообразном наборе пар LoRA, что позволяет ей эффективно обобщать на новые, невидимые комбинации содержания и стиля. Это означает, что пользователи могут быстро и качественно генерировать персонализированные изображения без необходимости повторного обучения модели.
В отличие от методов, требующих оптимизации коэффициентов объединения для каждой новой комбинации, LoRA.rar генерирует эти коэффициенты за один проход через гиперсеть. Это устраняет необходимость в повторном обучении и делает процесс объединения значительно быстрее и менее ресурсоемким.
Мы также выявили ограничения существующих метрик оценки качества изображений и предложили новый протокол, основанный на многофункциональных больших языковых моделях (MLLM), который обеспечивает более точную оценку качества изображений с учетом содержания и стиля. Это позволяет более эффективно оценивать результаты генерации изображений.
ZipLoRA использует подход, основанный на оптимизации, для нахождения оптимальных коэффициентов объединения. Однако этот процесс требует значительных вычислительных ресурсов и времени, что делает его непрактичным для реального времени. В отличие от этого, LoRA.rar обеспечивает мгновенное объединение, что делает его более подходящим для использования на устройствах с ограниченными ресурсами.
Гиперсети уже использовались в других контекстах, таких как агрегация моделей в федеративном обучении. Однако в данном случае мы применяем гиперсеть для предсказания коэффициентов объединения, что позволяет эффективно интегрировать содержание и стиль без необходимости сложной оптимизации.
Мы рассматриваем задачу объединения параметров LoRA, представляющих содержание и стиль, для генерации качественных изображений. Наша цель — создать гиперсеть, которая может предсказывать коэффициенты объединения для новых пар LoRA в режиме реального времени.
Для обучения гиперсети мы создаем датасет LoRA, который включает в себя пары содержания и стиля, полученные из различных источников, таких как DreamBooth и StyleDrop. Мы делим этот датасет на обучающую, валидационную и тестовую выборки, чтобы оценить производительность модели на новых комбинациях.
Гиперсеть принимает на вход матрицы обновления LoRA для содержания и стиля и предсказывает коэффициенты объединения для каждой колонки. Мы используем многоуровневую архитектуру с несколькими входными слоями, чтобы эффективно обрабатывать высокоразмерные данные.
Гиперсеть обучается на выборках пар LoRA, предсказывая коэффициенты объединения и оптимизируя их с помощью потерь, которые учитывают как содержание, так и стиль. Мы используем регуляризацию, чтобы обеспечить независимость между коэффициентами для содержания и стиля.
Существующие метрики, такие как CLIP-I и DINO, не всегда адекватно оценивают качество изображений, созданных с учетом содержания и стиля. Например, CLIP-I может игнорировать точность репликации объекта в пользу стилистической точности.
Мы предлагаем новую метрику оценки, основанную на MLLM, которая позволяет более точно оценивать, насколько сгенерированные изображения соответствуют заданным требованиям по содержанию и стилю. Эта метрика учитывает как содержание, так и стиль, что позволяет более точно оценивать результаты генерации.
Для дополнения автоматизированных метрик мы также проводим человеческие оценки, чтобы получить качественные отзывы о созданных изображениях. Участники оценивают, насколько хорошо изображения соответствуют заданным стилям и объектам.
В наших экспериментах мы сравниваем LoRA.rar с несколькими установленными методами, включая ZipLoRA и другие подходы к объединению моделей. Результаты показывают, что LoRA.rar превосходит эти методы как по качеству изображений, так и по скорости генерации.
Мы используем метрику MARS2 для количественной оценки производительности LoRA.rar и других методов. Результаты показывают, что LoRA.rar consistently outperform existing methods in terms of both content and style accuracy.
Качественный анализ изображений, созданных с помощью LoRA.rar, показывает, что наш метод способен генерировать высококачественные изображения, которые точно отражают как содержание, так и стиль. Это подчеркивает его эффективность в сравнении с другими методами.
В данной работе мы представили метод LoRA.rar, который обеспечивает эффективное объединение параметров LoRA для генерации изображений с учетом содержания и стиля. Наша гиперсеть позволяет мгновенно генерировать коэффициенты объединения, что делает метод подходящим для использования на устройствах с ограниченными ресурсами. Мы также предложили новую метрику оценки качества изображений, которая позволяет более точно оценивать результаты генерации. Результаты экспериментов показывают, что LoRA.rar превосходит существующие методы как по качеству, так и по скорости, открывая новые возможности для персонализированной генерации изображений.