ColorFlow: Революция в цветизации изображений последовательностей

В последние годы технологии автоматической цветизации изображений стали активно развиваться благодаря достижениям в области машинного обучения и генеративных моделей. Одним из наиболее впечатляющих результатов является модель ColorFlow, которая была разработана для решения задачи цветизации черно-белых изображений последовательностей с сохранением идентичности объектов. В данной статье мы рассмотрим основные концепции, лежащие в основе ColorFlow, и то, как эта модель может изменить подход к цветизации в различных отраслях, таких как анимация и комиксы.

Цветизация черно-белых изображений является сложной задачей, требующей не только технических решений, но и глубокого понимания контекста изображения. В отличие от простых методов, которые могут просто добавлять цвета в изображения, ColorFlow обеспечивает точное соответствие цветовой идентичности объектов, таких как волосы и одежда персонажей, с использованием информации из референсных изображений. Это особенно важно в индустрии анимации и комиксов, где сохранение идентичности персонажей имеет критическое значение.

Проблема идентичности

Существующие методы цветизации, такие как генеративные состязательные сети (GAN) и вариационные автокодировщики (VAE), часто сталкиваются с проблемами в поддержании идентичности объектов в последовательностях изображений. ColorFlow решает эту проблему, используя контекстуальную информацию и механизм самовнимания, что позволяет модели эффективно обучаться и сохранять идентичность объектов на протяжении всей последовательности.

Архитектура ColorFlow

ColorFlow состоит из трех основных компонентов:

Retrieval-Augmented Pipeline (RAP): Этот этап отвечает за извлечение релевантных цветных патчей из пула референсных изображений. Он использует предобученный CLIP для генерации векторных представлений изображений и вычисления косинусного сходства между патчами.
In-context Colorization Pipeline (ICP): Основной компонент, который использует извлеченные патчи для цветизации черно-белых изображений. Этот процесс включает в себя двухветвевую архитектуру, где одна ветвь отвечает за извлечение идентичности цвета, а другая – за саму цветизацию.
Guided Super-Resolution Pipeline (GSRP): Этот этап предназначен для повышения разрешения выходных изображений и улучшения качества цветизации, используя информацию о структуре из черно-белых изображений.

Retrieval-Augmented Pipeline

RAP начинается с деления входного черно-белого изображения на четыре перекрывающихся патча. Каждому патчу соответствует пять цветных патчей из референсных изображений. Затем, используя CLIP, модель генерирует векторные представления для каждого патча и вычисляет сходство между ними. Это позволяет выбрать три наиболее похожих патча для каждого запроса, что служит основой для дальнейшей цветизации.

In-context Colorization Pipeline

ICP использует полученные патчи для преобразования черно-белых изображений в цветные. В этом процессе используется вспомогательная ветвь, называемая Colorization Guider, которая помогает интегрировать условную информацию в модель. Основной модельный блок основан на U-Net, который позволяет эффективно обрабатывать информацию о цвете и структуре.

Guided Super-Resolution Pipeline

GSRP решает проблемы, связанные с уменьшением разрешения, возникающим в процессе цветизации. Он использует высокоразрешенные черно-белые изображения и низкоразрешенные цветные выходы для создания финального изображения с высоким разрешением. Этот процесс включает в себя интерполяцию и интеграцию промежуточных признаков из кодировщика и декодировщика, что позволяет улучшить качество финального результата.

Эксперименты и результаты

Для оценки производительности ColorFlow был создан обширный набор данных, состоящий из более чем 50 000 цветных глав манги и соответствующих черно-белых изображений. Модель была протестирована на различных метриках, таких как Fréchet Inception Distance (FID), Peak Signal-to-Noise Ratio (PSNR) и другие, которые показали, что ColorFlow превосходит существующие модели по всем показателям.

Пользовательское исследование

В рамках пользовательского исследования участники оценивали эстетическое качество, схожесть с оригиналом и последовательность идентичностей цвета в изображениях. Результаты показали, что ColorFlow был предпочтительным выбором по всем критериям.

Заключение

ColorFlow представляет собой значительный шаг вперед в области автоматической цветизации изображений последовательностей. Его трехступенчатая архитектура и использование контекстуальной информации делают его мощным инструментом для художников и разработчиков, работающих в области анимации и комиксов. Благодаря своей способности сохранять идентичность объектов и обеспечивать высокое качество цветизации, ColorFlow может значительно упростить процесс создания цветных версий черно-белых изображений, что открывает новые возможности для творчества и инноваций в различных отраслях.

ColorFlow не только улучшает качество цветизации, но и делает этот процесс более доступным и эффективным для профессионалов, стремящихся к высокому уровню детализации и точности в своих работах.

Статья на arxiv Оригинал pdf generative attention diffusion

Ай Дайджест