Свежая выжимка ml и AI статей - каждый день
В последние годы технологии генерации и редактирования изображений значительно продвинулись вперед благодаря использованию диффузионных моделей. Тем не менее, существующие решения часто специализированы для конкретных задач и методов, что ограничивает их универсальность и требует значительных усилий для создания специализированных моделей и сбора данных. В этой статье мы рассмотрим новый подход, предложенный в работе под названием UniReal, который представляет собой универсальную платформу для генерации и редактирования изображений.
Сфера визуального контента претерпела значительные изменения с развитием диффузионных моделей, которые открыли новые возможности для генерации и редактирования изображений. Однако растущие требования к практическому применению приводят к тому, что задачи становятся все более специализированными. Это ограничивает способность моделей к обобщению знаний и увеличивает трудоемкость разработки методов, адаптированных к конкретным задачам.
UniReal стремится создать универсальную платформу, которая объединяет различные задачи генерации и редактирования изображений в единую формулировку. Основные требования к модели включают:
UniReal основан на идеях, заимствованных из моделей генерации видео, которые эффективно балансируют между согласованностью и вариацией между кадрами. Это позволяет рассматривать задачи генерации и редактирования изображений как "дискретные" кадры видео. В рамках UniReal различные количества входных и выходных изображений обрабатываются как псевдокадры, что обеспечивает поддержку широкого спектра приложений.
UniReal использует архитектуру диффузионного трансформера с полной внимательностью для моделирования взаимосвязей между изображениями и текстовыми подсказками. Входные изображения кодируются в латентное пространство с помощью VAE (Variational Autoencoder), а затем преобразуются в визуальные токены. Эти токены обрабатываются трансформером, который использует полное внимание для моделирования отношений между изображениями и текстовыми подсказками.
Для управления различными задачами и наборами данных UniReal внедряет иерархическую подсказку, которая включает контекстные и изображенческие подсказки. Это позволяет модели эффективно справляться с различными задачами, такими как редактирование изображений и генерация новых изображений с учетом заданных условий.
UniReal использует универсальное обучение с использованием больших объемов видеоданных. Это позволяет модели учиться на реальных динамиках и взаимодействиях объектов, что значительно улучшает ее способности к генерации и редактированию изображений. Процесс обучения включает несколько этапов:
UniReal использует автоматизированный процесс для создания данных из видеоматериалов. Сначала используются модели для извлечения видеокапций, затем выбираются два кадра как изображения "до" и "после" редактирования. Это позволяет создать наборы данных, которые могут быть использованы для обучения модели.
UniReal продемонстрировал превосходные результаты в различных задачах генерации и редактирования изображений, включая:
В ходе экспериментов UniReal показал значительные преимущества в сравнении с существующими специализированными моделями. Например, в задачах редактирования изображений UniReal более точно следовал инструкциям и генерировал высококачественные результаты, чем другие модели, такие как OmniGen и UltraEdit.
UniReal представляет собой универсальное решение для широкого спектра задач генерации и редактирования изображений. Используя подходы из области генерации видео, модель успешно справляется с различными входными и выходными конфигурациями, обеспечивая высокую реалистичность результатов. Несмотря на некоторые ограничения, такие как снижение стабильности при увеличении количества входных изображений, UniReal демонстрирует значительный потенциал для дальнейших исследований и разработок в области компьютерного зрения и генеративного моделирования.
В заключение, UniReal открывает новые горизонты в области генерации и редактирования изображений, предоставляя исследователям и разработчикам мощный инструмент для создания и адаптации визуального контента в реальном времени.