Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

StyleStudio: Текстово-ориентированный перенос стиля с выборочным контролем элементов стиля

Текстово-ориентированный перенос стиля представляет собой важную задачу в области синтеза изображений, целью которой является объединение стиля референсного изображения с содержанием, описанным текстовым запросом. Совсем недавно достижения в области генеративных моделей, таких как Stable Diffusion, значительно улучшили нюансы стиля трансформаций, однако остаются серьезные проблемы, такие как переобучение на референсных стилях, ограниченный контроль стилистики и несоответствие текстовому содержанию. В данной статье мы представляем три взаимодополняющие стратегии, направленные на решение этих проблем.

Проблемы существующих методов

Переобучение на стилях

Современные методы переноса стиля часто сталкиваются с проблемой переобучения, когда сгенерированные изображения чрезмерно отражают характеристики референсного стиля. Это не только снижает эстетическую гибкость сгенерированного изображения, но и ограничивает его адаптивность к различным стилистическим или контентным требованиям.

Недостаток контроля

Существующие модели часто воспроизводят все элементы стиля, включая цветовые палитры, текстуры, освещение и мазки кисти. Это приводит к недостаточному контролю над стилем, где пользователи не могут выделять или исключать определенные стилистические компоненты.

Нестабильность компоновки

При переносе стиля могут возникать нежелательные артефакты, такие как нестабильность компоновки (например, эффект шахматной доски), когда повторяющиеся узоры возникают в сгенерированном изображении независимо от пользовательских инструкций. Это подчеркивает уникальные сложности, связанные с дополнительной сложностью переноса стиля.

Методология

Для решения указанных выше проблем мы предлагаем три стратегии.

1. Интеграция с помощью адаптивной нормализации (AdaIN)

Мы вводим механизм кросс-модальной адаптивной нормализации (AdaIN) для лучшей интеграции стиля и текстовых характеристик. Это позволяет создать более согласованные управляющие характеристики, которые направляют финальную генерацию изображения, гармонично выравнивая стилистические особенности с текстовыми инструкциями.

2. Классификатор-свободное управление стилем (SCFG)

Мы разрабатываем подход SCFG, который позволяет выборочно управлять стилистическими элементами, уменьшая нежелательное влияние. Этот метод включает в себя создание "негативного" изображения, которое не содержит целевого стиля, что позволяет модели сосредоточиться исключительно на передаче желаемого стиля.

3. Использование модели-учителя для стабилизации компоновки

Мы внедряем модель-учителя на ранних этапах генерации, которая одновременно выполняет процесс денойзинга с тем же текстовым запросом и делится своими пространственными картами внимания с моделью стиля на каждом временном шаге. Это обеспечивает стабильное и согласованное распределение стиля, эффективно уменьшая проблемы, такие как шахматный эффект.

Результаты и эксперименты

Мы провели обширные эксперименты, которые продемонстрировали значительные улучшения в качестве переноса стиля и соответствии текстовым запросам. Наши методы были интегрированы в существующие фреймворки переноса стиля без необходимости дополнительной настройки.

Качественные сравнения

Мы сравнили результаты нашего метода с несколькими современными подходами, такими как CSGO, InstantStyle и IP-Adapter. Результаты показали, что наш метод значительно лучше сохраняет стиль изображения, точно соответствуя текстовым запросам.

Количественные оценки

Мы провели количественные оценки с использованием метрик, таких как косинусное сходство CLIP между сгенерированным изображением и соответствующим текстовым описанием. Наш метод показал наивысшие результаты по метрике соответствия текста, что подтверждает его эффективность в сохранении стилистических характеристик при точном следовании текстовым инструкциям.

Заключение

В данной работе мы представили три инновационные стратегии для решения проблем, связанных с текстово-ориентированным переносом стиля. Использование кросс-модальной адаптивной нормализации, классификатор-свободного управления стилем и модели-учителя обеспечивает более высокую степень контроля над стилем и улучшает стабильность компоновки. Наши результаты показывают, что предложенные методы значительно улучшают качество переноса стиля, делая их универсальным и надежным решением для задач синтеза изображений на основе текста.