Свежая выжимка ml и AI статей - каждый день
С недавним развитием текстово-ориентированных диффузионных моделей, таких как DALL-E и других, мы стали свидетелями значительного прогресса в области генерации изображений и видео. Однако управление этими моделями по-прежнему остается сложной задачей. Проблема заключается в том, что естественный язык часто не может точно ассоциировать пространственную и атрибутивную информацию с несколькими экземплярами, что ограничивает возможность генерации сложных композиций. В этой статье мы рассмотрим новый подход, называемый ROICtrl, который улучшает управление экземплярами в визуальной генерации, используя региональный контроль экземпляров.
Современные текстово-ориентированные диффузионные модели, как правило, более эффективны в генерации изображений с простой композицией и ограниченным количеством доминирующих экземпляров. Это связано с тем, что языковые модели не всегда могут точно описать пространственные позиции и атрибуты нескольких экземпляров. Например, при использовании модели DALL-E для генерации изображений на основе текстовых подсказок возникает проблема с точностью генерации, когда требуется создать сложные композиции с несколькими объектами.
Существующие методы управления экземплярами можно разделить на две основные категории:
Неявная инъекция ROI через встраивание: В этом подходе информация о регионах кодируется неявно, что приводит к проблемам с пространственной согласованностью и утечкой атрибутов.
Явная инъекция ROI с помощью масок внимания: Этот метод использует маски внимания для изоляции каждого ROI во время инъекции, что улучшает пространственное выравнивание, но требует значительных вычислительных ресурсов.
Обе стратегии имеют свои ограничения, что подчеркивает необходимость в более эффективном и точном методе управления экземплярами.
ROICtrl представляет собой адаптер для предобученных диффузионных моделей, который обеспечивает точный контроль экземпляров на основе регионов. Он использует новую операцию, называемую ROI-Unpool, которая позволяет эффективно обрабатывать ROI на высокоразрешенных картах признаков. Эта операция восстанавливает обрезанные признаки ROI в их исходные позиции, что позволяет сохранить детали в процессе генерации.
ROI-Unpool является дополнением к операции ROI-Align, используемой в задачах обнаружения объектов. В отличие от ROI-Align, которая работает на более низких разрешениях, ROI-Unpool позволяет манипулировать ROI на высокоразрешенных картах признаков, что критически важно для визуальной генерации. Эта операция позволяет избежать проблем с квантованием координат и снижает вычислительные затраты.
ROICtrl интегрирует инъекцию экземпляров в существующие диффузионные модели, обеспечивая совместимость с различными дополнениями, такими как ControlNet и IP-Adapter. Это расширяет возможности генерации до многократных экземпляров, позволяя пользователям задавать свободные текстовые описания для каждого экземпляра.
Для оценки эффективности ROICtrl был разработан новый бенчмарк, ROICtrl-Bench, который охватывает как шаблонные, так и свободные текстовые описания экземпляров. Эксперименты показали, что ROICtrl значительно превосходит существующие методы по точности управления экземплярами, а также сокращает вычислительные затраты.
Эксперименты показали, что ROICtrl достигает высокой точности в пространственном выравнивании и региональном текстовом выравнивании, что подтверждается результатами на различных бенчмарках, таких как MIG-Bench и InstDiff-Bench. ROICtrl демонстрирует улучшенные показатели по сравнению с предыдущими методами, такими как GLIGEN и Instance Diffusion.
ROICtrl открывает новые возможности в области визуальной генерации, позволяя:
Управление экземплярами: ROICtrl может использоваться для управления различными экземплярами в сложных композициях, обеспечивая точное соответствие между текстовыми подсказками и визуальными элементами.
Совместимость с различными моделями сообщества: После обучения ROICtrl может быть адаптирован к различным моделям, что делает его универсальным инструментом для визуальной генерации.
Совместимость с пространственными и встраиваемыми дополнениями: ROICtrl может работать с существующими дополнениями, обеспечивая дополнительный уровень контроля над пространственными и идентификационными атрибутами.
Непрерывная генерация: ROICtrl позволяет модифицировать локальные регионы изображения, сохраняя при этом уже сгенерированный контент, что открывает новые возможности для интерактивной генерации.
ROICtrl представляет собой значительный шаг вперед в области управления экземплярами в визуальной генерации. Используя новые подходы, такие как ROI-Unpool, ROICtrl обеспечивает эффективное и точное управление экземплярами, что позволяет создавать более сложные и детализированные визуализации. Это открывает новые горизонты для приложений в различных областях, от искусства до коммерческого дизайна. В будущем исследователи могут продолжить развивать ROICtrl, применяя его к новым задачам, таким как управление экземплярами в видео и интеграция с трансформерными моделями.