Edify Image: Высококачественная Генерация Изображений с Использованием Моделей Диффузии в Пиксельном Пространстве

В последние годы текстовая генерация изображений достигла значительных успехов благодаря развитию моделей на основе диффузии. Эти модели, обученные на миллиардах пар текст-изображение, способны создавать фотореалистичные и разнообразные изображения из текстовых описаний. В этом техническом отчете мы представляем Edify Image, семейство моделей диффузии в пиксельном пространстве, которые обеспечивают высокую точность и управляемость при генерации изображений высокого разрешения.

Основные Концепции и Методы

1. Каскадные Модели Диффузии

Edify Image использует каскадный подход, где базовая модель генерирует изображения низкого разрешения, а последующие модели постепенно увеличивают их разрешение. Этот процесс позволяет моделям захватывать и уточнять детали с высокой точностью на разных уровнях масштаба.

2. Модель Диффузии Лапласиана

Основная инновация Edify Image заключается в использовании модели диффузии Лапласиана (Laplacian Diffusion Model). Эта модель симулирует процесс диффузии, в котором сигналы изображения на разных частотных полосах затухают с различными скоростями. Это позволяет:

Управлять детализацией: Модель может фокусироваться на деталях высокой частоты, сохраняя при этом общую структуру изображения.
Эффективность: Разделяя сигналы на частотные полосы, модель может более эффективно обучаться и генерировать изображения.

2.1. Предварительные Сведения

Модель Диффузии: Вводится распределение данных ( p_0(x_0) ), где ( x_0 ) - это исходное изображение. Процесс диффузии вперед добавляет шум, превращая ( x_0 ) в ( x_t ) с использованием гауссовского шума ( \epsilon \sim \mathcal{N}(0, I) ).
Разложение Лапласиана: Изображение разлагается на несколько уровней разрешения, где каждая составляющая представляет собой разницу между двумя последовательными версиями изображения, захватывая разные частотные полосы.

2.2. Процесс Диффузии Лапласиана

Вперед: Сигналы на разных частотных полосах затухают с различными скоростями, что позволяет модели управлять детализацией на разных уровнях.
Обратно: Модель обучается генерировать изображения, начиная с шума и постепенно удаляя его, используя предсказания для различных частотных полос.

3. Применения Edify Image

3.1. Генерация Изображений из Текста

Edify Image поддерживает генерацию изображений из текстовых описаний с разрешением до 1K. Модель обрабатывает длинные текстовые запросы, поддерживает различные соотношения сторон и может генерировать изображения с улучшенной справедливостью и разнообразием.

3.2. Увеличение Разрешения до 4K

Модель Edify Image также включает в себя модель для увеличения разрешения изображений до 4K. Эта модель обучается на небольшом наборе изображений высокого разрешения, что позволяет добавлять детали, сохраняя при этом верность исходному изображению.

3.3. ControlNets

Для добавления дополнительного контроля над генерацией, Edify Image использует ControlNets, которые позволяют управлять структурой изображения с помощью различных входных данных, таких как глубина, эскизы и маски для вставки.

3.4. Генерация Панорам HDR

Edify Image может генерировать панорамные изображения с высоким динамическим диапазоном (HDR) в разрешении до 16K. Это достигается путем последовательной вставки изображений с разных ракурсов и их сшивания с обеспечением консистентности.

3.5. Настройка Модели

Модель поддерживает тонкую настройку на небольшом наборе эталонных изображений для создания гиперреалистичных изображений людей, сохраняя при этом идентичность, соответствующую эталонному набору.

Заключение

Edify Image представляет собой мощный инструмент для генерации изображений, который объединяет передовые методы диффузии с инновационными подходами к управлению и детализации. Благодаря использованию модели диффузии Лапласиана, Edify Image способна создавать изображения высокого качества, которые могут быть использованы в различных приложениях, от создания контента до дизайна цифровых аватаров и синтеза данных.

Статья на arxiv Оригинал pdf customization finetuning synthesis

Ай Дайджест