LAION-SG: Новый Подход к Генерации Сложных Изображений с Аннотациями Структурных Графов

С недавними достижениями в области генерации изображений на основе текста (T2I) наблюдается значительный прогресс в создании высококачественных изображений из текстовых подсказок. Однако существующие модели T2I показывают ухудшение производительности при генерации сложных сцен, которые включают несколько объектов и их взаимосвязи. Основная причина этого заключается в недостатках в существующих наборах данных, которые не обеспечивают точные аннотации взаимосвязей между объектами. В данной статье мы представляем LAION-SG, крупномасштабный набор данных с высококачественными структурными аннотациями, который позволяет эффективно обучать модели для генерации сложных изображений.

Проблемы Современных Моделей T2I

Современные модели T2I, такие как диффузионные модели, продемонстрировали впечатляющие результаты в создании изображений. Тем не менее, они сталкиваются с трудностями при генерации композиций, состоящих из нескольких объектов и сложных взаимосвязей. Это связано с тем, что текстовые подсказки часто не содержат достаточной информации о взаимосвязях между объектами, что приводит к ошибкам в генерации. Например, если текстовая подсказка описывает сцену с несколькими персонажами и их действиями, модель может не правильно интерпретировать эти действия или не учесть правильные взаимосвязи.

Структурные Графы (SG) как Решение

Структурные графы (SG) представляют собой мощный инструмент для описания содержания изображений. Они состоят из узлов, представляющих объекты и их атрибуты, и рёбер, отображающих взаимосвязи между этими объектами. В отличие от последовательного описания текста, SG предлагает компактный и структурированный подход к описанию сложных сцен, что улучшает эффективность аннотирования и позволяет более точно указывать на атрибуты объектов и их взаимосвязи.

Создание Набора Данных LAION-SG

Для решения проблемы недостатка аннотаций взаимосвязей в существующих наборах данных мы разработали LAION-SG — набор данных, основанный на LAION-Aesthetics V2. Он включает в себя 540 005 пар изображений и аннотаций, где каждая аннотация содержит информацию о множестве объектов, их атрибутах и взаимосвязях. Мы использовали автоматизированный процесс аннотирования с помощью GPT-4o для создания высококачественных структурных аннотаций.

Процесс Аннотирования

Процесс аннотирования включает несколько этапов:

Идентификация объектов: Каждому объекту в изображении присваивается уникальный идентификатор.
Определение атрибутов: Каждый объект получает как минимум один абстрактный атрибут, который помогает различать его от других объектов.
Запись взаимосвязей: Взаимосвязи между объектами описываются с использованием конкретных глаголов, что позволяет точно передавать динамику сцены.

Преимущества LAION-SG

LAION-SG предлагает ряд преимуществ по сравнению с существующими наборами данных, такими как COCO и Visual Genome. Во-первых, он содержит значительно больше информации о взаимосвязях между объектами. Во-вторых, аннотации в LAION-SG более точные и структурированные, что позволяет моделям лучше справляться с задачами генерации сложных сцен.

Модель SDXL-SG

На основе LAION-SG мы разработали новую базовую модель SDXL-SG, которая интегрирует информацию о структурных аннотациях в процесс генерации изображений. Модель использует графовые нейронные сети (GNN) для извлечения структуры сцены из графов, что позволяет оптимизировать эмбеддинги SG. Эти эмбеддинги затем подаются в основную модель для генерации высококачественных сложных изображений.

Архитектура Модели

Архитектура SDXL-SG включает следующие компоненты:

Энкодер SG: Использует GNN для обработки графов и извлечения эмбеддингов объектов и взаимосвязей.
U-Net: Основная часть модели, которая отвечает за итеративное предсказание шума и генерацию изображений на основе эмбеддингов SG.

Эксперименты и Результаты

Мы провели обширные эксперименты, чтобы оценить производительность модели SDXL-SG по сравнению с существующими моделями. В результате наши модели, обученные на LAION-SG, значительно превзошли модели, обученные на других наборах данных, по множеству метрик, включая качество изображений и точность в отношении объектов и их взаимосвязей.

Комплексный Бенчмарк (CompSGen Bench)

Для оценки производительности моделей в генерации составных изображений мы создали новый бенчмарк CompSGen Bench. Он включает в себя 20 838 образцов сложных сцен и использует метрики, такие как FID и CLIP Score для оценки качества изображений, а также SG-IoU, Entity-IoU и Relation-IoU для оценки точности аннотирования.

Заключение

LAION-SG представляет собой значительное достижение в области аннотирования сложных изображений и предлагает новые возможности для обучения моделей генерации. С помощью структурных аннотаций мы можем значительно улучшить качество и точность сгенерированных изображений, что открывает новые горизонты для применения в области компьютерного зрения и генерации контента.

Статья на arxiv Оригинал pdf evaluation generation dataset

Ай Дайджест