Свежая выжимка ml и AI статей - каждый день
С недавними достижениями в области генерации изображений на основе текста (T2I) наблюдается значительный прогресс в создании высококачественных изображений из текстовых подсказок. Однако существующие модели T2I показывают ухудшение производительности при генерации сложных сцен, которые включают несколько объектов и их взаимосвязи. Основная причина этого заключается в недостатках в существующих наборах данных, которые не обеспечивают точные аннотации взаимосвязей между объектами. В данной статье мы представляем LAION-SG, крупномасштабный набор данных с высококачественными структурными аннотациями, который позволяет эффективно обучать модели для генерации сложных изображений.
Современные модели T2I, такие как диффузионные модели, продемонстрировали впечатляющие результаты в создании изображений. Тем не менее, они сталкиваются с трудностями при генерации композиций, состоящих из нескольких объектов и сложных взаимосвязей. Это связано с тем, что текстовые подсказки часто не содержат достаточной информации о взаимосвязях между объектами, что приводит к ошибкам в генерации. Например, если текстовая подсказка описывает сцену с несколькими персонажами и их действиями, модель может не правильно интерпретировать эти действия или не учесть правильные взаимосвязи.
Структурные графы (SG) представляют собой мощный инструмент для описания содержания изображений. Они состоят из узлов, представляющих объекты и их атрибуты, и рёбер, отображающих взаимосвязи между этими объектами. В отличие от последовательного описания текста, SG предлагает компактный и структурированный подход к описанию сложных сцен, что улучшает эффективность аннотирования и позволяет более точно указывать на атрибуты объектов и их взаимосвязи.
Для решения проблемы недостатка аннотаций взаимосвязей в существующих наборах данных мы разработали LAION-SG — набор данных, основанный на LAION-Aesthetics V2. Он включает в себя 540 005 пар изображений и аннотаций, где каждая аннотация содержит информацию о множестве объектов, их атрибутах и взаимосвязях. Мы использовали автоматизированный процесс аннотирования с помощью GPT-4o для создания высококачественных структурных аннотаций.
Процесс аннотирования включает несколько этапов:
LAION-SG предлагает ряд преимуществ по сравнению с существующими наборами данных, такими как COCO и Visual Genome. Во-первых, он содержит значительно больше информации о взаимосвязях между объектами. Во-вторых, аннотации в LAION-SG более точные и структурированные, что позволяет моделям лучше справляться с задачами генерации сложных сцен.
На основе LAION-SG мы разработали новую базовую модель SDXL-SG, которая интегрирует информацию о структурных аннотациях в процесс генерации изображений. Модель использует графовые нейронные сети (GNN) для извлечения структуры сцены из графов, что позволяет оптимизировать эмбеддинги SG. Эти эмбеддинги затем подаются в основную модель для генерации высококачественных сложных изображений.
Архитектура SDXL-SG включает следующие компоненты:
Мы провели обширные эксперименты, чтобы оценить производительность модели SDXL-SG по сравнению с существующими моделями. В результате наши модели, обученные на LAION-SG, значительно превзошли модели, обученные на других наборах данных, по множеству метрик, включая качество изображений и точность в отношении объектов и их взаимосвязей.
Для оценки производительности моделей в генерации составных изображений мы создали новый бенчмарк CompSGen Bench. Он включает в себя 20 838 образцов сложных сцен и использует метрики, такие как FID и CLIP Score для оценки качества изображений, а также SG-IoU, Entity-IoU и Relation-IoU для оценки точности аннотирования.
LAION-SG представляет собой значительное достижение в области аннотирования сложных изображений и предлагает новые возможности для обучения моделей генерации. С помощью структурных аннотаций мы можем значительно улучшить качество и точность сгенерированных изображений, что открывает новые горизонты для применения в области компьютерного зрения и генерации контента.