Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

ROICtrl: Усовершенствование управления экземплярами в визуальной генерации

С недавним развитием текстово-ориентированных диффузионных моделей, таких как DALL-E и других, мы стали свидетелями значительного прогресса в области генерации изображений и видео. Однако управление этими моделями по-прежнему остается сложной задачей. Проблема заключается в том, что естественный язык часто не может точно ассоциировать пространственную и атрибутивную информацию с несколькими экземплярами, что ограничивает возможность генерации сложных композиций. В этой статье мы рассмотрим новый подход, называемый ROICtrl, который улучшает управление экземплярами в визуальной генерации, используя региональный контроль экземпляров.

Проблема управления экземплярами

Современные текстово-ориентированные диффузионные модели, как правило, более эффективны в генерации изображений с простой композицией и ограниченным количеством доминирующих экземпляров. Это связано с тем, что языковые модели не всегда могут точно описать пространственные позиции и атрибуты нескольких экземпляров. Например, при использовании модели DALL-E для генерации изображений на основе текстовых подсказок возникает проблема с точностью генерации, когда требуется создать сложные композиции с несколькими объектами.

Текущие подходы к управлению экземплярами

Существующие методы управления экземплярами можно разделить на две основные категории:

  1. Неявная инъекция ROI через встраивание: В этом подходе информация о регионах кодируется неявно, что приводит к проблемам с пространственной согласованностью и утечкой атрибутов.

  2. Явная инъекция ROI с помощью масок внимания: Этот метод использует маски внимания для изоляции каждого ROI во время инъекции, что улучшает пространственное выравнивание, но требует значительных вычислительных ресурсов.

Обе стратегии имеют свои ограничения, что подчеркивает необходимость в более эффективном и точном методе управления экземплярами.

ROICtrl: Новый подход

ROICtrl представляет собой адаптер для предобученных диффузионных моделей, который обеспечивает точный контроль экземпляров на основе регионов. Он использует новую операцию, называемую ROI-Unpool, которая позволяет эффективно обрабатывать ROI на высокоразрешенных картах признаков. Эта операция восстанавливает обрезанные признаки ROI в их исходные позиции, что позволяет сохранить детали в процессе генерации.

ROI-Unpool

ROI-Unpool является дополнением к операции ROI-Align, используемой в задачах обнаружения объектов. В отличие от ROI-Align, которая работает на более низких разрешениях, ROI-Unpool позволяет манипулировать ROI на высокоразрешенных картах признаков, что критически важно для визуальной генерации. Эта операция позволяет избежать проблем с квантованием координат и снижает вычислительные затраты.

Конструкция ROICtrl

ROICtrl интегрирует инъекцию экземпляров в существующие диффузионные модели, обеспечивая совместимость с различными дополнениями, такими как ControlNet и IP-Adapter. Это расширяет возможности генерации до многократных экземпляров, позволяя пользователям задавать свободные текстовые описания для каждого экземпляра.

Оценка производительности ROICtrl

Для оценки эффективности ROICtrl был разработан новый бенчмарк, ROICtrl-Bench, который охватывает как шаблонные, так и свободные текстовые описания экземпляров. Эксперименты показали, что ROICtrl значительно превосходит существующие методы по точности управления экземплярами, а также сокращает вычислительные затраты.

Результаты экспериментов

Эксперименты показали, что ROICtrl достигает высокой точности в пространственном выравнивании и региональном текстовом выравнивании, что подтверждается результатами на различных бенчмарках, таких как MIG-Bench и InstDiff-Bench. ROICtrl демонстрирует улучшенные показатели по сравнению с предыдущими методами, такими как GLIGEN и Instance Diffusion.

Применения ROICtrl

ROICtrl открывает новые возможности в области визуальной генерации, позволяя:

  1. Управление экземплярами: ROICtrl может использоваться для управления различными экземплярами в сложных композициях, обеспечивая точное соответствие между текстовыми подсказками и визуальными элементами.

  2. Совместимость с различными моделями сообщества: После обучения ROICtrl может быть адаптирован к различным моделям, что делает его универсальным инструментом для визуальной генерации.

  3. Совместимость с пространственными и встраиваемыми дополнениями: ROICtrl может работать с существующими дополнениями, обеспечивая дополнительный уровень контроля над пространственными и идентификационными атрибутами.

  4. Непрерывная генерация: ROICtrl позволяет модифицировать локальные регионы изображения, сохраняя при этом уже сгенерированный контент, что открывает новые возможности для интерактивной генерации.

Заключение

ROICtrl представляет собой значительный шаг вперед в области управления экземплярами в визуальной генерации. Используя новые подходы, такие как ROI-Unpool, ROICtrl обеспечивает эффективное и точное управление экземплярами, что позволяет создавать более сложные и детализированные визуализации. Это открывает новые горизонты для приложений в различных областях, от искусства до коммерческого дизайна. В будущем исследователи могут продолжить развивать ROICtrl, применяя его к новым задачам, таким как управление экземплярами в видео и интеграция с трансформерными моделями.