Повышение качества генерации изображений с помощью In-Context LoRA для Diffusion Transformers

В последние годы генерация изображений на основе текстовых описаний достигла значительных успехов благодаря моделям, таким как DALL-E, Stable Diffusion и другим. Эти модели позволяют создавать высококачественные изображения, соответствующие заданным текстовым запросам. Однако, несмотря на эти достижения, адаптация таких моделей к широкому спектру задач, особенно требующих генерации наборов изображений с сложными внутренними связями, остается сложной задачей. В этой статье мы рассмотрим новый подход, известный как In-Context LoRA (IC-LoRA), который предлагает эффективное решение для адаптации моделей генерации изображений к разнообразным задачам без необходимости значительных изменений в архитектуре моделей или использования больших объемов данных для обучения.

Проблематика и предпосылки

Исследования показали, что модели, такие как Diffusion Transformers (DiTs), обладают потенциалом для генерации изображений в контексте, но часто требуют значительных вычислительных ресурсов и не всегда обеспечивают оптимальное качество изображений. Групповые диффузионные трансформеры (GDT) предложили концепцию генерации изображений в группах, где множество изображений генерируется одновременно в одном процессе диффузии, однако качество генерации оставалось неудовлетворительным по сравнению с базовыми моделями.

Концепция In-Context LoRA

Основная идея IC-LoRA заключается в том, что текстовые модели генерации изображений уже обладают способностью к генерации изображений в контексте, и эту способность можно активировать и улучшить с помощью минимальной настройки. Вот ключевые аспекты подхода:

Конкатенация изображений: Вместо того чтобы объединять токены внимания, как это делается в GDT, IC-LoRA предлагает объединять сами изображения в одно большое изображение. Это упрощает процесс и сохраняет структуру оригинальной модели.
Совместное описание изображений: Все изображения описываются одним объединенным текстовым запросом, который включает общее описание набора изображений и отдельные описания для каждого изображения. Это позволяет модели обрабатывать и генерировать множество изображений одновременно, сохраняя при этом их взаимосвязь.
Настройка LoRA с малыми наборами данных: Вместо полного обучения модели на больших данных, IC-LoRA использует метод Low-Rank Adaptation (LoRA), который позволяет настроить модель на малых наборах данных (от 20 до 100 изображений), что значительно снижает требования к вычислительным ресурсам.

Эксперименты и результаты

Реализация

IC-LoRA была реализована на базе модели FLUX.1-dev, которая использовалась для обучения и генерации изображений. Для каждой задачи были собраны высококачественные наборы изображений, которые затем объединялись в одно большое изображение. Текстовые описания для этих изображений создавались с помощью многофункциональных крупных языковых моделей (MLLMs).

Результаты

Генерация изображений без референса: IC-LoRA показала высокое качество генерации изображений для различных задач, включая создание сторибордов, дизайн шрифтов, портретную фотографию и многое другое. Примеры генерации изображений представлены в фигурах 4-12.
Генерация изображений с референсом: Используя метод SDEdit, IC-LoRA также позволяет генерировать изображения, условленные на существующих изображениях. Однако в этом режиме наблюдались некоторые несоответствия в визуальной согласованности, что указывает на потенциал для дальнейших улучшений.

Примеры генерации

Фильмовые сториборды: Генерация набора из трех изображений, где каждое изображение представляет собой кадр из фильма, с сохранением идентичности персонажей и последовательности событий.
Портретная фотография: Создание портретов с различными позами и выражениями лица, но с сохранением идентичности субъекта.
Домашний декор: Генерация изображений интерьеров, где каждое изображение демонстрирует разные аспекты декора, но сохраняет общий стиль.
Дизайн шрифтов: Создание набора изображений, где каждое изображение показывает шрифт в различных контекстах, но с сохранением единого стиля.

Заключение

IC-LoRA представляет собой мощный инструмент для адаптации моделей генерации изображений к широкому спектру задач без необходимости значительных изменений в архитектуре или использования больших объемов данных. Этот подход не только повышает эффективность использования ресурсов, но и открывает новые возможности для исследований в области генерации изображений, предоставляя сообществу инструменты для создания высококачественных визуальных контентов. В будущем планируется дальнейшее улучшение метода, в частности, в части генерации изображений с референсом, что позволит достичь еще более высокого уровня визуальной согласованности и качества.

Статья на arxiv Оригинал pdf diffusion transformer generation

Ай Дайджест