UniReal: Универсальная генерация и редактирование изображений с помощью изучения реальных динамик

В последние годы технологии генерации и редактирования изображений значительно продвинулись вперед благодаря использованию диффузионных моделей. Тем не менее, существующие решения часто специализированы для конкретных задач и методов, что ограничивает их универсальность и требует значительных усилий для создания специализированных моделей и сбора данных. В этой статье мы рассмотрим новый подход, предложенный в работе под названием UniReal, который представляет собой универсальную платформу для генерации и редактирования изображений.

Сфера визуального контента претерпела значительные изменения с развитием диффузионных моделей, которые открыли новые возможности для генерации и редактирования изображений. Однако растущие требования к практическому применению приводят к тому, что задачи становятся все более специализированными. Это ограничивает способность моделей к обобщению знаний и увеличивает трудоемкость разработки методов, адаптированных к конкретным задачам.

Цели UniReal

UniReal стремится создать универсальную платформу, которая объединяет различные задачи генерации и редактирования изображений в единую формулировку. Основные требования к модели включают:

Сохранение согласованности между входными и выходными изображениями.
Управление визуальными вариациями, что позволяет модели адаптироваться к различным условиям.

Основные концепции UniReal

UniReal основан на идеях, заимствованных из моделей генерации видео, которые эффективно балансируют между согласованностью и вариацией между кадрами. Это позволяет рассматривать задачи генерации и редактирования изображений как "дискретные" кадры видео. В рамках UniReal различные количества входных и выходных изображений обрабатываются как псевдокадры, что обеспечивает поддержку широкого спектра приложений.

Архитектура модели

UniReal использует архитектуру диффузионного трансформера с полной внимательностью для моделирования взаимосвязей между изображениями и текстовыми подсказками. Входные изображения кодируются в латентное пространство с помощью VAE (Variational Autoencoder), а затем преобразуются в визуальные токены. Эти токены обрабатываются трансформером, который использует полное внимание для моделирования отношений между изображениями и текстовыми подсказками.

Иерархическая подсказка

Для управления различными задачами и наборами данных UniReal внедряет иерархическую подсказку, которая включает контекстные и изображенческие подсказки. Это позволяет модели эффективно справляться с различными задачами, такими как редактирование изображений и генерация новых изображений с учетом заданных условий.

Обучение и данные

UniReal использует универсальное обучение с использованием больших объемов видеоданных. Это позволяет модели учиться на реальных динамиках и взаимодействиях объектов, что значительно улучшает ее способности к генерации и редактированию изображений. Процесс обучения включает несколько этапов:

Предварительное обучение на текстово-изображенческих и текстово-видеоданных для получения базовых навыков генерации.
Обучение на специализированных наборах данных, которые включают различные задачи редактирования и генерации изображений.
Постепенное увеличение разрешения изображений для улучшения качества генерации.

Конструкция данных

UniReal использует автоматизированный процесс для создания данных из видеоматериалов. Сначала используются модели для извлечения видеокапций, затем выбираются два кадра как изображения "до" и "после" редактирования. Это позволяет создать наборы данных, которые могут быть использованы для обучения модели.

Применения и результаты

UniReal продемонстрировал превосходные результаты в различных задачах генерации и редактирования изображений, включая:

Редактирование изображений: пользователи могут предоставлять подсказки для изменения атрибутов изображений, таких как добавление или удаление объектов.
Генерация изображений: UniReal может создавать новые изображения на основе текстовых подсказок и ссылок на существующие изображения.
Вставка объектов: модель может вставлять объекты в новые контексты, сохраняя детали и согласованность фона.

Сравнение с другими методами

В ходе экспериментов UniReal показал значительные преимущества в сравнении с существующими специализированными моделями. Например, в задачах редактирования изображений UniReal более точно следовал инструкциям и генерировал высококачественные результаты, чем другие модели, такие как OmniGen и UltraEdit.

Заключение

UniReal представляет собой универсальное решение для широкого спектра задач генерации и редактирования изображений. Используя подходы из области генерации видео, модель успешно справляется с различными входными и выходными конфигурациями, обеспечивая высокую реалистичность результатов. Несмотря на некоторые ограничения, такие как снижение стабильности при увеличении количества входных изображений, UniReal демонстрирует значительный потенциал для дальнейших исследований и разработок в области компьютерного зрения и генеративного моделирования.

В заключение, UniReal открывает новые горизонты в области генерации и редактирования изображений, предоставляя исследователям и разработчикам мощный инструмент для создания и адаптации визуального контента в реальном времени.

Статья на arxiv Оригинал pdf generation consistency variation

Ай Дайджест