FAM Diffusion: Модели диффузии с модуляцией частоты и внимания для генерации изображений высокого разрешения

Модели диффузии стали важным инструментом в области генерации изображений, демонстрируя впечатляющие результаты в создании высококачественных изображений на основе текстовых подсказок. Однако, несмотря на их мощь, существует известное ограничение: эти модели не могут эффективно масштабироваться до более высоких разрешений, чем те, на которых они были обучены. Генерация изображений с использованием разрешений, превышающих разрешение обучения, часто приводит к повторяющимся паттернам и искажениям структуры. Решение этой проблемы с минимальными затратами на вычисления и без переобучения моделей представляет собой актуальную задачу.

В данной работе мы предлагаем новую методику, названную FAM (Frequency and Attention Modulation) диффузией, которая включает два ключевых модуля: модуль модуляции частоты (FM) и модуль модуляции внимания (AM). Эти модули позволяют существующим моделям диффузии генерировать изображения высокого разрешения без необходимости дополнительного обучения.

Ограничения существующих методов

Существующие подходы к генерации изображений высокого разрешения можно условно разделить на две категории. Первая категория включает методы, которые работают на основе патчей, генерируя изображения по частям. Это приводит к высоким задержкам из-за повторных проходов через модель и часто вызывает артефакты, такие как несоответствия в текстуре и глобальной структуре. Вторая категория включает методы, которые изменяют архитектуру модели для достижения более быстрой генерации, но это часто приводит к ухудшению качества изображений.

Предложенный подход: FAM диффузия

Модуль модуляции частоты (FM)

FM модуль использует преобразование Фурье для улучшения глобальной структурной согласованности. Он позволяет контролировать низкочастотные компоненты, обеспечивая при этом полное управление высокочастотными компонентами. Это позволяет избежать артефактов, связанных с глобальной согласованностью, и улучшает качество изображений.

Модуль модуляции внимания (AM)

AM модуль нацелен на улучшение согласованности локальных текстурных паттернов. Он использует карты внимания из процесса денойзинга на нативном разрешении для управления процессом денойзинга на высоком разрешении. Это позволяет лучше учитывать семантические связи между различными частями изображения, что особенно важно для генерации деталей, таких как текстуры.

Архитектура FAM диффузии

FAM диффузия интегрирует оба модуля в процесс генерации изображений. Процесс начинается с генерации изображения на нативном разрешении, после чего применяется стратегия денойзинга с добавлением шума, где высокое разрешение корректируется на основе информации с низкого разрешения. Это позволяет сохранить высокую степень согласованности между различными уровнями разрешения.

Преимущества FAM диффузии

Улучшение качества изображений: FAM диффузия значительно повышает качество генерации изображений, устраняя артефакты и улучшая текстурные детали.
Снижение задержек: Метод избегает избыточных вычислений, связанных с патчами, что приводит к незначительным задержкам в процессе генерации.
Совместимость: FAM диффузия может быть интегрирована в любую существующую модель диффузии без необходимости дополнительного обучения или изменения архитектуры.

Эксперименты и результаты

Мы провели обширные эксперименты, чтобы продемонстрировать эффективность нашего подхода. Используя такие модели, как SDXL и HiDiffusion, мы сравнили FAM диффузию с другими современными методами генерации изображений высокого разрешения.

Оценка качества

Для оценки качества изображений мы использовали метрики, такие как Frechet Inception Distance (FID) и Kernel Inception Distance (KID). Результаты показали, что FAM диффузия достигает лучших показателей по всем метрикам, особенно на больших масштабах.

Качественные результаты

Качественные результаты подтверждают, что FAM диффузия генерирует изображения с гораздо меньшим количеством артефактов и более высоким уровнем детализации по сравнению с конкурентами. Например, в изображениях, созданных с помощью FAM диффузии, наблюдается более точная передача текстур и семантических связей между объектами.

Заключение

В данной работе мы представили FAM диффузию — новый подход к генерации изображений высокого разрешения с использованием существующих моделей диффузии. Предложенные модули модуляции частоты и внимания позволяют значительно улучшить качество изображений, избегая задержек и артефактов, характерных для других методов. Результаты наших экспериментов подтверждают эффективность FAM диффузии, и мы уверены, что этот подход откроет новые горизонты в области генерации изображений и других приложений на основе моделей диффузии.

Статья на arxiv Оригинал pdf performance artifacts training

Ай Дайджест