LoRA.rar: Эффективное объединение LoRA для генерации изображений с учетом стиля и содержания

Современные достижения в области генерации изображений на основе текстовых описаний, особенно с использованием моделей, основанных на диффузионных процессах, открывают новые горизонты для персонализированной генерации изображений. В частности, пользователи могут создавать изображения, отображающие конкретные объекты или стили, предоставляя всего несколько эталонных изображений. Ключевым элементом этого прогресса является метод низкоранговой адаптации (LoRA), который позволяет эффективно настраивать параметры моделей для достижения высококачественной персонализации.

Однако существующие методы объединения параметров LoRA, такие как ZipLoRA, требуют значительных вычислительных ресурсов и времени, что делает их непрактичными для использования на устройствах с ограниченными ресурсами, таких как смартфоны. В этой статье мы представляем метод LoRA.rar, который не только улучшает качество изображений, но и обеспечивает впечатляющее ускорение процесса объединения, достигая более чем 4000-кратного увеличения скорости.

Основные идеи LoRA.rar

1. Обучение гиперсети

LoRA.rar использует гиперсеть для предсказания коэффициентов объединения для пар LoRA, представляющих содержание и стиль. Гиперсеть предварительно обучается на разнообразном наборе пар LoRA, что позволяет ей эффективно обобщать на новые, невидимые комбинации содержания и стиля. Это означает, что пользователи могут быстро и качественно генерировать персонализированные изображения без необходимости повторного обучения модели.

2. Мгновенное объединение

В отличие от методов, требующих оптимизации коэффициентов объединения для каждой новой комбинации, LoRA.rar генерирует эти коэффициенты за один проход через гиперсеть. Это устраняет необходимость в повторном обучении и делает процесс объединения значительно быстрее и менее ресурсоемким.

3. Новые метрики оценки

Мы также выявили ограничения существующих метрик оценки качества изображений и предложили новый протокол, основанный на многофункциональных больших языковых моделях (MLLM), который обеспечивает более точную оценку качества изображений с учетом содержания и стиля. Это позволяет более эффективно оценивать результаты генерации изображений.

Сравнение с существующими методами

1. ZipLoRA

ZipLoRA использует подход, основанный на оптимизации, для нахождения оптимальных коэффициентов объединения. Однако этот процесс требует значительных вычислительных ресурсов и времени, что делает его непрактичным для реального времени. В отличие от этого, LoRA.rar обеспечивает мгновенное объединение, что делает его более подходящим для использования на устройствах с ограниченными ресурсами.

2. Модели, основанные на гиперсетях

Гиперсети уже использовались в других контекстах, таких как агрегация моделей в федеративном обучении. Однако в данном случае мы применяем гиперсеть для предсказания коэффициентов объединения, что позволяет эффективно интегрировать содержание и стиль без необходимости сложной оптимизации.

Методология

Постановка задачи

Мы рассматриваем задачу объединения параметров LoRA, представляющих содержание и стиль, для генерации качественных изображений. Наша цель — создать гиперсеть, которая может предсказывать коэффициенты объединения для новых пар LoRA в режиме реального времени.

Генерация датасета LoRA

Для обучения гиперсети мы создаем датасет LoRA, который включает в себя пары содержания и стиля, полученные из различных источников, таких как DreamBooth и StyleDrop. Мы делим этот датасет на обучающую, валидационную и тестовую выборки, чтобы оценить производительность модели на новых комбинациях.

Структура гиперсети

Гиперсеть принимает на вход матрицы обновления LoRA для содержания и стиля и предсказывает коэффициенты объединения для каждой колонки. Мы используем многоуровневую архитектуру с несколькими входными слоями, чтобы эффективно обрабатывать высокоразмерные данные.

Обучение гиперсети

Гиперсеть обучается на выборках пар LoRA, предсказывая коэффициенты объединения и оптимизируя их с помощью потерь, которые учитывают как содержание, так и стиль. Мы используем регуляризацию, чтобы обеспечить независимость между коэффициентами для содержания и стиля.

Оценка качества генерации изображений

1. Ограничения существующих метрик

Существующие метрики, такие как CLIP-I и DINO, не всегда адекватно оценивают качество изображений, созданных с учетом содержания и стиля. Например, CLIP-I может игнорировать точность репликации объекта в пользу стилистической точности.

2. Введение новой метрики MARS2

Мы предлагаем новую метрику оценки, основанную на MLLM, которая позволяет более точно оценивать, насколько сгенерированные изображения соответствуют заданным требованиям по содержанию и стилю. Эта метрика учитывает как содержание, так и стиль, что позволяет более точно оценивать результаты генерации.

3. Человеческая оценка

Для дополнения автоматизированных метрик мы также проводим человеческие оценки, чтобы получить качественные отзывы о созданных изображениях. Участники оценивают, насколько хорошо изображения соответствуют заданным стилям и объектам.

Эксперименты и результаты

1. Сравнение с существующими методами

В наших экспериментах мы сравниваем LoRA.rar с несколькими установленными методами, включая ZipLoRA и другие подходы к объединению моделей. Результаты показывают, что LoRA.rar превосходит эти методы как по качеству изображений, так и по скорости генерации.

2. Количественный анализ

Мы используем метрику MARS2 для количественной оценки производительности LoRA.rar и других методов. Результаты показывают, что LoRA.rar consistently outperform existing methods in terms of both content and style accuracy.

3. Качественный анализ

Качественный анализ изображений, созданных с помощью LoRA.rar, показывает, что наш метод способен генерировать высококачественные изображения, которые точно отражают как содержание, так и стиль. Это подчеркивает его эффективность в сравнении с другими методами.

Заключение

В данной работе мы представили метод LoRA.rar, который обеспечивает эффективное объединение параметров LoRA для генерации изображений с учетом содержания и стиля. Наша гиперсеть позволяет мгновенно генерировать коэффициенты объединения, что делает метод подходящим для использования на устройствах с ограниченными ресурсами. Мы также предложили новую метрику оценки качества изображений, которая позволяет более точно оценивать результаты генерации. Результаты экспериментов показывают, что LoRA.rar превосходит существующие методы как по качеству, так и по скорости, открывая новые возможности для персонализированной генерации изображений.

Статья на arxiv Оригинал pdf image optimization generation

Ай Дайджест