Создание Композиционных Сцен через Генерацию Экземпляров RGBA с Текстом в Изображение

В последние годы модели генерации изображений на основе текстовых описаний, такие как модели диффузии, достигли впечатляющих результатов в создании высококачественных изображений. Однако, несмотря на эти достижения, точная настройка и управление процессом генерации требует значительных усилий по инженерии подсказок (prompt engineering). Контролируемость и гибкость в создании изображений могут быть улучшены путем введения условий макета (layout conditioning), но существующие методы часто не позволяют редактировать макет или тонко настраивать атрибуты объектов. В этой статье мы рассмотрим новый подход к генерации сцен, который предлагает значительные улучшения в управлении атрибутами объектов, их расположением в пространстве и манипулированием сценой.

Основные Понятия и Проблемы

Текст в Изображение и Проблемы Контроля

Модели генерации изображений на основе текстовых описаний, такие как Latent Diffusion Models (LDM), могут создавать изображения, которые соответствуют текстовому описанию, но они сталкиваются с несколькими проблемами:

Сложность подсказок: Создание точных и детализированных изображений требует тщательного выбора слов и фраз, чтобы избежать неоднозначностей и ошибок в интерпретации.
Ограниченная гибкость: Изменение одной детали в подсказке может привести к значительным изменениям в итоговом изображении, что ограничивает возможность тонкой настройки.
Отсутствие контроля над атрибутами: Модели часто не могут точно контролировать атрибуты объектов, такие как цвет, текстура или поза.

Введение Макета в Генерацию

Для улучшения контроля над структурой изображения были предложены методы, которые вводят информацию о макете:

Методы обучения на основе макета: Модели обучаются с учетом координат объектов как условий для генерации, что позволяет пользователю указывать расположение объектов.
Манипуляция вниманием: Использование механизмов внимания для управления расположением и взаимодействием объектов в изображении.

Однако эти методы также имеют свои ограничения:

Ограниченная редактируемость: После генерации изображения изменение макета или атрибутов объектов требует повторной генерации, что может не сохранить первоначальный контент.
Сложность в редактировании: Редактирование существующих изображений, особенно изменение расположения объектов или их масштабирования, является сложной задачей.

Предлагаемый Подход: Многослойная Генерация

Генерация Экземпляров RGBA

Для решения вышеуказанных проблем мы предлагаем новый подход, основанный на генерации многослойных изображений, где каждый слой представляет собой отдельный экземпляр с информацией о прозрачности (RGBA):

Изолированная генерация: Вместо генерации всего изображения за один раз, мы генерируем каждый объект как отдельное RGBA-изображение. Это позволяет точно контролировать атрибуты каждого объекта.
Обучение модели: Мы разработали новый метод обучения для адаптации существующих моделей диффузии к генерации RGBA-изображений. Этот метод включает в себя:
- Дизентангельное представление: Разделение RGB и альфа-каналов в латентном пространстве для улучшения контроля над прозрачностью.
- Мутуальное кондиционирование: Использование взаимного кондиционирования RGB и альфа-каналов при генерации, что позволяет более точно управлять атрибутами объектов.

Составление Сцен

После генерации отдельных экземпляров мы используем многослойный подход для создания сложных сцен:

Многослойный шумовой блендинг: Интеграция экземпляров в сцену происходит пошагово, где каждый экземпляр добавляется в отдельный слой, обеспечивая точное расположение и масштабирование объектов.
Контроль над композицией: Этот метод позволяет пользователю контролировать расположение объектов в 3D-пространстве, их взаимодействие и порядок наложения слоев.

Преимущества Подхода

Точный контроль: Пользователи могут точно управлять атрибутами объектов и их расположением.
Гибкость и интерактивность: Возможность легко редактировать и манипулировать сценами без необходимости полной перегенерации.
Высокое качество: Генерация отдельных экземпляров позволяет достигать высокого качества изображений с точными деталями и текстурами.

Заключение

Наш подход к генерации композиций сцен через создание экземпляров RGBA с текстом в изображение представляет собой значительный шаг вперед в области генеративных моделей. Он предоставляет пользователям не только инструменты для создания высококачественных изображений, но и возможности для точного контроля над каждым аспектом сцены. Это открывает новые горизонты для дизайнеров, художников и всех, кто заинтересован в создании визуального контента с использованием AI.

Статья на arxiv Оригинал pdf composition training paradigm

Ай Дайджест