Обзор метода RAG: Регионально-осведомленная генерация изображений из текста

В последние годы модели диффузии значительно улучшили качество и точность синтеза изображений из текстовых описаний, переходя от традиционных архитектур UNet к более продвинутым моделям на базе трансформеров, таким как DiT. Эти модели, включая PixArt-α, StableDiffusion3/3.5 и Flux, установили новые стандарты качества, превзойдя предыдущие модели, такие как Stable Diffusion 1.5 и SDXL. Однако, несмотря на эти достижения, точный контроль пространственного расположения и взаимодействия между объектами на изображении остается сложной задачей.

В ответ на эту проблему была разработана концепция регионального подхода к генерации изображений, известная также как региональный контроль или композитная генерация. Этот метод позволяет пользователям не только указывать текстовое описание, но и задавать пространственные параметры для каждого региона на изображении. Ранние методы, такие как GLIGEN, InstanceDiffusion и MS-Diffusion, требовали дополнительного обучения новых модулей для обработки условий, таких как координаты ограничивающих рамок или сегментационные маски. Эти подходы, хотя и эффективны, ограничены специфическими базовыми моделями из-за введения дополнительных обучаемых компонентов.

В данной статье мы рассмотрим RAG (Region-Aware text-to-image Generation), новый метод, который позволяет осуществлять точный региональный контроль без необходимости дополнительного обучения. RAG разделяет процесс генерации на две фазы: Regional Hard Binding (Региональное жесткое связывание) и Regional Soft Refinement (Региональное мягкое уточнение), что обеспечивает как точность в представлении атрибутов и позиционировании объектов, так и гармоничное взаимодействие между регионами.

Метод RAG

Предварительные сведения

Diffusion Transformer (DiT) - это архитектура, которая использует трансформеры в качестве основной сети в модели латентной диффузии (LDM). Это позволяет модели эффективно захватывать сложные зависимости в данных, обеспечивая высокое качество генерируемых изображений при меньших вычислительных затратах.

Механизм внимания играет ключевую роль в DiT, позволяя эффективно взаимодействовать между сетью диффузии и дополнительными сигналами управления, такими как текст или изображение. В процессе диффузии внимание постепенно захватывает представления признаков в латентном пространстве, обеспечивая эффективное удаление шума на каждом шаге и сохраняя глобальную согласованность и точность деталей в генерируемых результатах.

Обзор RAG

RAG разделяет процесс генерации изображений на две основные фазы:

Региональное жесткое связывание (Regional Hard Binding) - на начальных этапах процесса удаления шума, каждый регион обрабатывается индивидуально с его базовым описанием, что обеспечивает точное представление атрибутов и локализацию сущностей.
Региональное мягкое уточнение (Regional Soft Refinement) - на последующих этапах, когда шум удаляется, RAG улучшает гармонию между соседними регионами, позволяя взаимодействие между локальными условиями региона и глобальным латентным представлением изображения.

Кроме того, RAG поддерживает возможность перерисовки изображений (Image Repainting), позволяя пользователям изменять неудовлетворительные регионы в предыдущей генерации, сохраняя при этом остальные регионы неизменными, без необходимости использования дополнительных моделей для вставки.

Региональное жесткое связывание

Этот этап включает в себя декомпозицию исходного сложного текстового запроса на подмножество фундаментальных описаний для каждого региона или объекта, а также их соответствующие пространственные позиции. Процесс может быть автоматизирован с помощью настроенного MLLM или определен вручную. Каждый регион обрабатывается отдельно с его фундаментальным описанием и привязывается к ранним этапам процесса удаления шума для обеспечения точного представления атрибутов и локализации сущностей.

Региональное мягкое уточнение

На этом этапе RAG генерирует высокоописательные подзапросы для каждого региона, а также глобальный запрос. Вместо манипулирования латентным представлением изображения, этот шаг достигает взаимодействия между локальными условиями региона и глобальным латентным представлением изображения внутри слоев перекрестного внимания. Это позволяет улучшить гармонию между соседними регионами, обогащая атрибуты объектов и их взаимодействие.

Перерисовка изображений

RAG позволяет пользователям изменять описания определенных регионов в предыдущей генерации, сохраняя при этом остальные регионы неизменными. Это достигается путем повторной инициализации шума в целевой области, что позволяет точно модифицировать ранее сгенерированные изображения без необходимости использования дополнительных моделей для вставки.

Эксперименты и результаты

Настройки эксперимента

RAG был реализован на основе Flux.1-dev для его превосходной производительности. Процесс вывода был настроен на 20 шагов с масштабом руководства 3.5. Для крупномасштабных количественных оценок использовался шаблон Chain-of-Thought (CoT) из RPG и GPT-4 для автоматической декомпозиции сцен с несколькими объектами.

Основные результаты

Количественное сравнение на T2ICompBench показало, что RAG превосходит конкурентов по ключевым аспектам, таким как привязка атрибутов, отношения между объектами и сложные композиции. RAG достиг улучшения на 29% по сравнению с RPG в обработке запросов с пространственными отношениями, что подчеркивает его эффективность в точной пространственной генерации.

Качественное сравнение иллюстрирует превосходство RAG в генерации сложных мультирегиональных изображений. В отличие от RPG, RAG обеспечивает точный контроль над несколькими регионами, верно передавая детали по позиции, количеству и атрибутам на основе введенного текста.

Исследование аспектов

Эффективность жесткого связывания и мягкого уточнения была изучена, и результаты показали, что жесткое связывание обеспечивает точное позиционирование объектов, но может привести к грубому отображению атрибутов и ограниченному взаимодействию между объектами. Мягкое уточнение, с другой стороны, обогащает атрибуты объектов и их взаимодействие, хотя может компрометировать точное позиционирование.

Влияние параметра r - параметр, контролирующий частоту применения жесткого связывания, показал, что чрезмерное связывание ограничивает возможности последующего мягкого уточнения, что может привести к появлению заметных границ между объектами.

Эффективность коэффициента δ - коэффициент, модулирующий интенсивность мягкого уточнения, показал, что слишком низкие или высокие значения могут привести к заметному разделению или легкому несоответствию между текстом и изображением. Оптимизация δ улучшает слияние регионов изображения, создавая более гармоничный и естественный общий вывод.

Анализ времени вывода показал, что, хотя RAG увеличивает время вывода с увеличением количества регионов, он совместим с существующими ускорительными фреймворками, такими как Hyper-Flux, что позволяет ускорить процесс генерации изображений в 2.5 раза, сохраняя при этом качество и контроль над взаимодействием между регионами.

Заключение

RAG представляет собой инновационный подход к генерации изображений из текста, который обеспечивает точный региональный контроль без необходимости дополнительного обучения. Разделяя процесс на этапы жесткого связывания и мягкого уточнения, RAG позволяет создавать изображения с высокой точностью и гармонией между регионами, а также поддерживает возможность перерисовки изображений. В будущем планируется улучшить эффективность вывода RAG и интегрировать его с другими моделями диффузии для повышения масштабируемости и производительности.

Статья на arxiv Оригинал pdf tuning generation refinement

Ай Дайджест