StyleStudio: Текстово-ориентированный перенос стиля с выборочным контролем элементов стиля
Стиль передачи, основанный на тексте, направлен на слияние стиля эталонного изображения с содержанием, описанным текстовым запросом. Недавние достижения в моделях текст-к-изображению улучшили нюансы трансформации стиля, однако остаются значительные проблемы, особенно с переобучением на эталонных стилях, что ограничивает стилистический контроль и приводит к несоответствию с текстовым содержанием. В этой статье мы предлагаем три взаимодополняющие стратегии для решения этих проблем. Во-первых, мы вводим механизм кросс-модальной адаптивной инстанс-нормализации (AdaIN) для лучшей интеграции стилевых и текстовых характеристик, улучшая выравнивание. Во-вторых, мы разрабатываем подход, основанный на классификаторе без обучения стиля (SCFG), который позволяет избирательно контролировать стилистические элементы, уменьшая ненужные влияния. Наконец, мы интегрируем модель-учителя на ранних этапах генерации, чтобы стабилизировать пространственные макеты и смягчить артефакты. Наши обширные оценки демонстрируют значительные улучшения в качестве передачи стиля и согласованности с текстовыми запросами. Более того, наш подход может быть интегрирован в существующие фреймворки передачи стиля без дополнительной настройки.