Свежая выжимка ml и AI статей - каждый день
Суперразрешение (SR) изображений — это важная задача в области компьютерного зрения, целью которой является восстановление высококачественного (HR) изображения из низкокачественного (LR) наблюдения. Основная проблема SR заключается в сложности и часто неизвестной природе модели деградации в реальных сценариях, что делает SR плохо определенной задачей. В последние годы значительные успехи были достигнуты в области диффузионных моделей, особенно в больших текстово-изображенческих (T2I) моделях, которые продемонстрировали выдающиеся результаты в генерации высококачественных изображений. Эти модели обладают сильной генеративной способностью и начинают использоваться как надежный приоритет для облегчения плохо определенности SR.
В данной работе представляется новый метод суперразрешения на основе инверсии диффузии, который направлен на использование богатых приоритетов изображений, заключенных в больших предварительно обученных диффузионных моделях, для повышения качества SR. Мы разрабатываем стратегию частичного предсказания шума (Partial noise Prediction, PnP) для построения промежуточного состояния диффузионной модели, которое служит начальной точкой для выборки. В центре нашего подхода находится глубокий предсказатель шума, который оценивает оптимальные карты шума для прямого процесса диффузии.
Наш метод предлагает гибкий и эффективный механизм выборки, который поддерживает произвольное количество шагов выборки, от одного до пяти. Даже при использовании одного шага выборки наш метод демонстрирует превосходные или сопоставимые результаты по сравнению с современными подходами. Это достигается благодаря тому, что пользователи могут свободно настраивать количество шагов выборки в зависимости от типа деградации или их специфических требований.
Существующие подходы к SR, использующие диффузионные приоритеты, можно разделить на два класса. Первый класс включает методы, которые переоптимизируют промежуточные результаты диффузионной модели для обеспечения согласованности с заданными LR изображениями. Второй класс напрямую дообучает предварительно обученную большую T2I модель для задачи SR. Эти методы достигли впечатляющих результатов, подтверждая эффективность диффузионных приоритетов для SR.
Для достижения инверсии диффузии мы вводим сеть предсказания шума, которая принимает LR изображение и временной шаг в качестве входных данных и выдает желаемые карты шума. Вместо того чтобы оптимизировать карты шума для каждого тестового изображения, мы обучаем предсказатель шума, чтобы обеспечить быструю выборку во время вывода. Это значительно улучшает эффективность вывода.
Стратегия PnP упрощает задачу инверсии, ограничивая предсказания до начального шага, тем самым уменьшая общую сложность процесса инверсии. Это позволяет предсказателю шума быть обученным для предсказания карт шума для нескольких заранее определенных начальных шагов.
Для восстановления HR изображения x₀ из LR наблюдения y₀ мы устанавливаем инверсионную траекторию, следуя которой можно решать задачу SR через итеративное генерирование. Начальное состояние xₖ,M строится из LR изображения y₀ с помощью предсказателя шума.
Мы провели обширные эксперименты для оценки производительности нашего метода на синтетическом и реальных наборах данных. Наша работа сосредоточена в основном на задаче SR ×4, следуя предыдущим работам.
Мы обучали предсказатель шума на наборе данных LSDIR и подмножестве изображений лиц из набора данных FFHQ. На каждой итерации мы случайно обрезали изображение с разрешением 512×512 и синтезировали LR изображение с использованием пайплайна RealESRGAN.
Мы оценили эффективность InvSR по сравнению с девятью современными методами, включая два GAN-метода и семь методов на основе диффузии. Результаты показывают, что InvSR превосходит или сопоставим по качеству с существующими методами, демонстрируя как количественные, так и качественные преимущества.
Мы предложили InvSR, новый метод суперразрешения на основе инверсии диффузии. Наш метод вводит предсказатель шума, который позволяет эффективно использовать предварительно обученную диффузионную модель, обеспечивая при этом гибкость в выборе количества шагов выборки. Это открывает новые возможности для решения задач SR в реальных условиях, обеспечивая значительное улучшение эффективности и качества.