Свежая выжимка ml и AI статей - каждый день
Модели диффузии стали важным инструментом в области генерации изображений, демонстрируя впечатляющие результаты в создании высококачественных изображений на основе текстовых подсказок. Однако, несмотря на их мощь, существует известное ограничение: эти модели не могут эффективно масштабироваться до более высоких разрешений, чем те, на которых они были обучены. Генерация изображений с использованием разрешений, превышающих разрешение обучения, часто приводит к повторяющимся паттернам и искажениям структуры. Решение этой проблемы с минимальными затратами на вычисления и без переобучения моделей представляет собой актуальную задачу.
В данной работе мы предлагаем новую методику, названную FAM (Frequency and Attention Modulation) диффузией, которая включает два ключевых модуля: модуль модуляции частоты (FM) и модуль модуляции внимания (AM). Эти модули позволяют существующим моделям диффузии генерировать изображения высокого разрешения без необходимости дополнительного обучения.
Существующие подходы к генерации изображений высокого разрешения можно условно разделить на две категории. Первая категория включает методы, которые работают на основе патчей, генерируя изображения по частям. Это приводит к высоким задержкам из-за повторных проходов через модель и часто вызывает артефакты, такие как несоответствия в текстуре и глобальной структуре. Вторая категория включает методы, которые изменяют архитектуру модели для достижения более быстрой генерации, но это часто приводит к ухудшению качества изображений.
FM модуль использует преобразование Фурье для улучшения глобальной структурной согласованности. Он позволяет контролировать низкочастотные компоненты, обеспечивая при этом полное управление высокочастотными компонентами. Это позволяет избежать артефактов, связанных с глобальной согласованностью, и улучшает качество изображений.
AM модуль нацелен на улучшение согласованности локальных текстурных паттернов. Он использует карты внимания из процесса денойзинга на нативном разрешении для управления процессом денойзинга на высоком разрешении. Это позволяет лучше учитывать семантические связи между различными частями изображения, что особенно важно для генерации деталей, таких как текстуры.
FAM диффузия интегрирует оба модуля в процесс генерации изображений. Процесс начинается с генерации изображения на нативном разрешении, после чего применяется стратегия денойзинга с добавлением шума, где высокое разрешение корректируется на основе информации с низкого разрешения. Это позволяет сохранить высокую степень согласованности между различными уровнями разрешения.
Мы провели обширные эксперименты, чтобы продемонстрировать эффективность нашего подхода. Используя такие модели, как SDXL и HiDiffusion, мы сравнили FAM диффузию с другими современными методами генерации изображений высокого разрешения.
Для оценки качества изображений мы использовали метрики, такие как Frechet Inception Distance (FID) и Kernel Inception Distance (KID). Результаты показали, что FAM диффузия достигает лучших показателей по всем метрикам, особенно на больших масштабах.
Качественные результаты подтверждают, что FAM диффузия генерирует изображения с гораздо меньшим количеством артефактов и более высоким уровнем детализации по сравнению с конкурентами. Например, в изображениях, созданных с помощью FAM диффузии, наблюдается более точная передача текстур и семантических связей между объектами.
В данной работе мы представили FAM диффузию — новый подход к генерации изображений высокого разрешения с использованием существующих моделей диффузии. Предложенные модули модуляции частоты и внимания позволяют значительно улучшить качество изображений, избегая задержек и артефактов, характерных для других методов. Результаты наших экспериментов подтверждают эффективность FAM диффузии, и мы уверены, что этот подход откроет новые горизонты в области генерации изображений и других приложений на основе моделей диффузии.