Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

ROICtrl: Улучшение управления экземплярами для визуальной генерации

Совсем недавно текстовые модели диффузии достигли значительных успехов в генерации изображений и видео, однако управление этими моделями остаётся важной проблемой. Огромный разрыв между естественным языком и визуальным миром затрудняет точное описание пространственных позиций и атрибутов нескольких экземпляров, что часто приводит к лексической неоднозначности. В результате современные текстовые модели диффузии более эффективны для генерации изображений с простой композицией и ограниченным количеством доминирующих экземпляров. В данной статье мы представляем ROICtrl, новый подход, который улучшает управление экземплярами в визуальной генерации, используя региональные управляющие рамки и свободные текстовые описания.

Проблема управления экземплярами

Управление экземплярами в визуальной генерации означает возможность точно контролировать различные объекты в изображении, что включает в себя их позиционирование и атрибуты. Существующие методы управления экземплярами можно разделить на два основных подхода:

  1. Неявная инъекция ROI через встраивание: В этом подходе информация о регионе кодируется неявно, что приводит к проблемам с пространственной согласованностью и утечкой атрибутов.

  2. Явная инъекция ROI с использованием масок внимания: Этот метод позволяет изолировать каждый ROI во время инъекции описаний экземпляров, что улучшает пространственное согласование, но требует значительных вычислительных ресурсов.

Несмотря на достижения в этих областях, текущие методы по-прежнему сталкиваются с проблемами, такими как высокая вычислительная нагрузка и недостаточная точность при работе с переменными размерами ROI.

ROI-Unpool: Новый подход к управлению экземплярами

Вдохновленные методами ROI-Align из области обнаружения объектов, мы разработали новый подход под названием ROI-Unpool. Этот метод восстанавливает извлеченные характеристики ROI к их исходным позициям на высокоразрешающих картах признаков, что позволяет более эффективно и точно управлять экземплярами в визуальной генерации.

ROI-Unpool работает в сочетании с ROI-Align, обеспечивая явное извлечение и обработку характеристик ROI с вычислительными затратами, независимыми от исходного размера признаков.

ROICtrl: Адаптер для управления экземплярами

ROICtrl — это адаптер, который интегрирует управление экземплярами в существующие модели диффузии. Он совместим с различными дополнениями, такими как ControlNet и T2I-Adapter, позволяя расширить их применение для генерации нескольких экземпляров.

Инъекция описаний экземпляров

ROICtrl использует инъекцию описаний экземпляров параллельно с инъекцией глобальных описаний. Это позволяет модели учитывать как общую композицию, так и специфические детали каждого экземпляра. Мы используем предварительно обученное перекрестное внимание из модели диффузии для генерации выходных данных внимания, что обеспечивает высокую точность и согласование.

Обучение и оптимизация

ROICtrl оптимизируется с использованием стандартной функции потерь диффузии, что позволяет ему эффективно обучаться на данных. Мы также вводим дополнительную регуляризацию для управления весами внимания, что способствует улучшению согласования текстов и пространственных атрибутов.

Применения ROICtrl

ROICtrl имеет широкий спектр применений, включая:

  1. Управление экземплярами: ROICtrl позволяет точно контролировать экземпляры в сложных композициях, используя свободные текстовые описания.

  2. Совместимость с различными моделями: После обучения ROICtrl может быть адаптирован к различным моделям сообщества, что делает его универсальным инструментом для генерации изображений.

  3. Непрерывная генерация: ROICtrl поддерживает непрерывную генерацию, позволяя изменять локальные регионы, сохраняя при этом ранее сгенерированный контент.

Оценка и результаты

Мы провели обширные эксперименты, чтобы оценить производительность ROICtrl по сравнению с существующими методами. Результаты показали, что ROICtrl значительно превосходит предыдущие подходы в управлении экземплярами, достигая высокой точности пространственного согласования и регионального текстового согласования.

ROICtrl-Bench

Для оценки возможностей управления экземплярами мы разработали ROICtrl-Bench, который включает в себя как шаблонные, так и свободные описания экземпляров. Это позволяет провести более полную оценку производительности ROICtrl в различных условиях.

Заключение

В этой статье мы представили ROICtrl, метод, который значительно улучшает управление экземплярами в визуальной генерации. Используя ROI-Unpool и адаптер ROICtrl, мы продемонстрировали, как можно эффективно интегрировать управление экземплярами в существующие модели диффузии, достигая превосходных результатов как в качественном, так и в количественном плане. ROICtrl открывает новые горизонты для контролируемой генерации сложных композиций, что делает его важным шагом вперед в области визуальной генерации.