Свежая выжимка ml и AI статей - каждый день
Совсем недавно текстовые модели диффузии достигли значительных успехов в генерации изображений и видео, однако управление этими моделями остаётся важной проблемой. Огромный разрыв между естественным языком и визуальным миром затрудняет точное описание пространственных позиций и атрибутов нескольких экземпляров, что часто приводит к лексической неоднозначности. В результате современные текстовые модели диффузии более эффективны для генерации изображений с простой композицией и ограниченным количеством доминирующих экземпляров. В данной статье мы представляем ROICtrl, новый подход, который улучшает управление экземплярами в визуальной генерации, используя региональные управляющие рамки и свободные текстовые описания.
Управление экземплярами в визуальной генерации означает возможность точно контролировать различные объекты в изображении, что включает в себя их позиционирование и атрибуты. Существующие методы управления экземплярами можно разделить на два основных подхода:
Неявная инъекция ROI через встраивание: В этом подходе информация о регионе кодируется неявно, что приводит к проблемам с пространственной согласованностью и утечкой атрибутов.
Явная инъекция ROI с использованием масок внимания: Этот метод позволяет изолировать каждый ROI во время инъекции описаний экземпляров, что улучшает пространственное согласование, но требует значительных вычислительных ресурсов.
Несмотря на достижения в этих областях, текущие методы по-прежнему сталкиваются с проблемами, такими как высокая вычислительная нагрузка и недостаточная точность при работе с переменными размерами ROI.
Вдохновленные методами ROI-Align из области обнаружения объектов, мы разработали новый подход под названием ROI-Unpool. Этот метод восстанавливает извлеченные характеристики ROI к их исходным позициям на высокоразрешающих картах признаков, что позволяет более эффективно и точно управлять экземплярами в визуальной генерации.
ROI-Unpool работает в сочетании с ROI-Align, обеспечивая явное извлечение и обработку характеристик ROI с вычислительными затратами, независимыми от исходного размера признаков.
ROICtrl — это адаптер, который интегрирует управление экземплярами в существующие модели диффузии. Он совместим с различными дополнениями, такими как ControlNet и T2I-Adapter, позволяя расширить их применение для генерации нескольких экземпляров.
ROICtrl использует инъекцию описаний экземпляров параллельно с инъекцией глобальных описаний. Это позволяет модели учитывать как общую композицию, так и специфические детали каждого экземпляра. Мы используем предварительно обученное перекрестное внимание из модели диффузии для генерации выходных данных внимания, что обеспечивает высокую точность и согласование.
ROICtrl оптимизируется с использованием стандартной функции потерь диффузии, что позволяет ему эффективно обучаться на данных. Мы также вводим дополнительную регуляризацию для управления весами внимания, что способствует улучшению согласования текстов и пространственных атрибутов.
ROICtrl имеет широкий спектр применений, включая:
Управление экземплярами: ROICtrl позволяет точно контролировать экземпляры в сложных композициях, используя свободные текстовые описания.
Совместимость с различными моделями: После обучения ROICtrl может быть адаптирован к различным моделям сообщества, что делает его универсальным инструментом для генерации изображений.
Непрерывная генерация: ROICtrl поддерживает непрерывную генерацию, позволяя изменять локальные регионы, сохраняя при этом ранее сгенерированный контент.
Мы провели обширные эксперименты, чтобы оценить производительность ROICtrl по сравнению с существующими методами. Результаты показали, что ROICtrl значительно превосходит предыдущие подходы в управлении экземплярами, достигая высокой точности пространственного согласования и регионального текстового согласования.
Для оценки возможностей управления экземплярами мы разработали ROICtrl-Bench, который включает в себя как шаблонные, так и свободные описания экземпляров. Это позволяет провести более полную оценку производительности ROICtrl в различных условиях.
В этой статье мы представили ROICtrl, метод, который значительно улучшает управление экземплярами в визуальной генерации. Используя ROI-Unpool и адаптер ROICtrl, мы продемонстрировали, как можно эффективно интегрировать управление экземплярами в существующие модели диффузии, достигая превосходных результатов как в качественном, так и в количественном плане. ROICtrl открывает новые горизонты для контролируемой генерации сложных композиций, что делает его важным шагом вперед в области визуальной генерации.