Свежая выжимка ml и AI статей - каждый день
Текстово-ориентированный перенос стиля представляет собой важную задачу в области синтеза изображений, целью которой является объединение стиля референсного изображения с содержанием, описанным текстовым запросом. Совсем недавно достижения в области генеративных моделей, таких как Stable Diffusion, значительно улучшили нюансы стиля трансформаций, однако остаются серьезные проблемы, такие как переобучение на референсных стилях, ограниченный контроль стилистики и несоответствие текстовому содержанию. В данной статье мы представляем три взаимодополняющие стратегии, направленные на решение этих проблем.
Современные методы переноса стиля часто сталкиваются с проблемой переобучения, когда сгенерированные изображения чрезмерно отражают характеристики референсного стиля. Это не только снижает эстетическую гибкость сгенерированного изображения, но и ограничивает его адаптивность к различным стилистическим или контентным требованиям.
Существующие модели часто воспроизводят все элементы стиля, включая цветовые палитры, текстуры, освещение и мазки кисти. Это приводит к недостаточному контролю над стилем, где пользователи не могут выделять или исключать определенные стилистические компоненты.
При переносе стиля могут возникать нежелательные артефакты, такие как нестабильность компоновки (например, эффект шахматной доски), когда повторяющиеся узоры возникают в сгенерированном изображении независимо от пользовательских инструкций. Это подчеркивает уникальные сложности, связанные с дополнительной сложностью переноса стиля.
Для решения указанных выше проблем мы предлагаем три стратегии.
Мы вводим механизм кросс-модальной адаптивной нормализации (AdaIN) для лучшей интеграции стиля и текстовых характеристик. Это позволяет создать более согласованные управляющие характеристики, которые направляют финальную генерацию изображения, гармонично выравнивая стилистические особенности с текстовыми инструкциями.
Мы разрабатываем подход SCFG, который позволяет выборочно управлять стилистическими элементами, уменьшая нежелательное влияние. Этот метод включает в себя создание "негативного" изображения, которое не содержит целевого стиля, что позволяет модели сосредоточиться исключительно на передаче желаемого стиля.
Мы внедряем модель-учителя на ранних этапах генерации, которая одновременно выполняет процесс денойзинга с тем же текстовым запросом и делится своими пространственными картами внимания с моделью стиля на каждом временном шаге. Это обеспечивает стабильное и согласованное распределение стиля, эффективно уменьшая проблемы, такие как шахматный эффект.
Мы провели обширные эксперименты, которые продемонстрировали значительные улучшения в качестве переноса стиля и соответствии текстовым запросам. Наши методы были интегрированы в существующие фреймворки переноса стиля без необходимости дополнительной настройки.
Мы сравнили результаты нашего метода с несколькими современными подходами, такими как CSGO, InstantStyle и IP-Adapter. Результаты показали, что наш метод значительно лучше сохраняет стиль изображения, точно соответствуя текстовым запросам.
Мы провели количественные оценки с использованием метрик, таких как косинусное сходство CLIP между сгенерированным изображением и соответствующим текстовым описанием. Наш метод показал наивысшие результаты по метрике соответствия текста, что подтверждает его эффективность в сохранении стилистических характеристик при точном следовании текстовым инструкциям.
В данной работе мы представили три инновационные стратегии для решения проблем, связанных с текстово-ориентированным переносом стиля. Использование кросс-модальной адаптивной нормализации, классификатор-свободного управления стилем и модели-учителя обеспечивает более высокую степень контроля над стилем и улучшает стабильность компоновки. Наши результаты показывают, что предложенные методы значительно улучшают качество переноса стиля, делая их универсальным и надежным решением для задач синтеза изображений на основе текста.