ROICtrl: Усовершенствование управления экземплярами в визуальной генерации
Естественный язык часто сталкивается с трудностями в точной ассоциации позиционной и атрибутивной информации с несколькими экземплярами, что ограничивает современные модели визуальной генерации на основе текста более простыми композициями с участием только нескольких доминирующих экземпляров. Для решения этой проблемы в данной работе улучшены диффузионные модели за счет введения контроля региональных экземпляров, где каждый экземпляр управляется ограничивающей рамкой, сопоставленной со свободной формой подписи. Предыдущие методы в этой области обычно полагаются на неявное кодирование позиций или явные маски внимания для разделения регионов интересов (ROI), что приводит либо к неточной инъекции координат, либо к большим вычислительным затратам. Вдохновленные ROI-Align в обнаружении объектов, мы вводим дополнительную операцию под названием ROI-Unpool. Вместе ROI-Align и ROI-Unpool обеспечивают явное, эффективное и точное манипулирование ROI на картах признаков высокого разрешения для визуальной генерации. Основываясь на ROI-Unpool, мы предлагаем ROICtrl, адаптер для предварительно обученных диффузионных моделей, который позволяет точно контролировать региональные экземпляры. ROICtrl совместим с дообученными диффузионными моделями сообщества, а также с существующими пространственными дополнениями (например, ControlNet, T2I-Adapter) и дополнениями на основе встраивания (например, IP-Adapter, ED-LoRA), расширяя их применение для генерации нескольких экземпляров. Эксперименты показывают, что ROICtrl достигает превосходных результатов в контроле региональных экземпляров, одновременно значительно уменьшая вычислительные затраты.