Свежая выжимка ml и AI статей - каждый день
В последние годы текстовая генерация изображений достигла значительных успехов благодаря развитию моделей на основе диффузии. Эти модели, обученные на миллиардах пар текст-изображение, способны создавать фотореалистичные и разнообразные изображения из текстовых описаний. В этом техническом отчете мы представляем Edify Image, семейство моделей диффузии в пиксельном пространстве, которые обеспечивают высокую точность и управляемость при генерации изображений высокого разрешения.
Edify Image использует каскадный подход, где базовая модель генерирует изображения низкого разрешения, а последующие модели постепенно увеличивают их разрешение. Этот процесс позволяет моделям захватывать и уточнять детали с высокой точностью на разных уровнях масштаба.
Основная инновация Edify Image заключается в использовании модели диффузии Лапласиана (Laplacian Diffusion Model). Эта модель симулирует процесс диффузии, в котором сигналы изображения на разных частотных полосах затухают с различными скоростями. Это позволяет:
Модель Диффузии: Вводится распределение данных ( p_0(x_0) ), где ( x_0 ) - это исходное изображение. Процесс диффузии вперед добавляет шум, превращая ( x_0 ) в ( x_t ) с использованием гауссовского шума ( \epsilon \sim \mathcal{N}(0, I) ).
Разложение Лапласиана: Изображение разлагается на несколько уровней разрешения, где каждая составляющая представляет собой разницу между двумя последовательными версиями изображения, захватывая разные частотные полосы.
Вперед: Сигналы на разных частотных полосах затухают с различными скоростями, что позволяет модели управлять детализацией на разных уровнях.
Обратно: Модель обучается генерировать изображения, начиная с шума и постепенно удаляя его, используя предсказания для различных частотных полос.
Edify Image поддерживает генерацию изображений из текстовых описаний с разрешением до 1K. Модель обрабатывает длинные текстовые запросы, поддерживает различные соотношения сторон и может генерировать изображения с улучшенной справедливостью и разнообразием.
Модель Edify Image также включает в себя модель для увеличения разрешения изображений до 4K. Эта модель обучается на небольшом наборе изображений высокого разрешения, что позволяет добавлять детали, сохраняя при этом верность исходному изображению.
Для добавления дополнительного контроля над генерацией, Edify Image использует ControlNets, которые позволяют управлять структурой изображения с помощью различных входных данных, таких как глубина, эскизы и маски для вставки.
Edify Image может генерировать панорамные изображения с высоким динамическим диапазоном (HDR) в разрешении до 16K. Это достигается путем последовательной вставки изображений с разных ракурсов и их сшивания с обеспечением консистентности.
Модель поддерживает тонкую настройку на небольшом наборе эталонных изображений для создания гиперреалистичных изображений людей, сохраняя при этом идентичность, соответствующую эталонному набору.
Edify Image представляет собой мощный инструмент для генерации изображений, который объединяет передовые методы диффузии с инновационными подходами к управлению и детализации. Благодаря использованию модели диффузии Лапласиана, Edify Image способна создавать изображения высокого качества, которые могут быть использованы в различных приложениях, от создания контента до дизайна цифровых аватаров и синтеза данных.