Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "region"

ROICtrl: Улучшение управления экземплярами для визуальной генерации

Естественный язык часто испытывает трудности с точной ассоциацией позиционной и атрибутивной информации с несколькими экземплярами, что ограничивает современные модели визуальной генерации на основе текста более простыми композициями, содержащими лишь несколько доминирующих экземпляров. Чтобы устранить это ограничение, данная работа улучшает модели диффузии, вводя региональный контроль экземпляров, при котором каждый экземпляр контролируется ограничивающим прямоугольником, paired with a free-form caption. Предыдущие методы в этой области обычно полагаются на неявное кодирование позиций или явные маски внимания для разделения интересующих областей (ROI), что приводит либо к неточной инъекции координат, либо к высоким вычислительным затратам. Вдохновленные ROI-Align в обнаружении объектов, мы вводим дополнительную операцию, называемую ROI-Unpool. В совокупности, ROI-Align и ROI-Unpool обеспечивают явное, эффективное и точное управление ROI на высокоразрешающих картах признаков для визуальной генерации. Основываясь на ROI-Unpool, мы предлагаем ROICtrl, адаптер для предварительно обученных моделей диффузии, который обеспечивает точный региональный контроль экземпляров. ROICtrl совместим с сообщества-подстроенными моделями диффузии, а также с существующими дополняющими модулями на основе пространственной информации (например, ControlNet, T2I-Adapter) и модулями на основе встраивания (например, IP-Adapter, ED-LoRA), расширяя их применение для генерации многоприводных экземпляров. Эксперименты показывают, что ROICtrl достигает превосходной производительности в regional instance control, одновременно значительно снижая вычислительные затраты.