Свежая выжимка ml и AI статей - каждый день
Современные достижения в области генерации изображений на основе текста, особенно с использованием моделей диффузии, открыли новые горизонты для творческих и коммерческих приложений. Однако, несмотря на значительный прогресс, точное соответствие между текстовыми инструкциями и сгенерированными изображениями остается сложной задачей, особенно когда речь идет о рендеринге текста в изображениях. Модели, такие как Stable Diffusion 3 (SD3), Flux и AuraFlow, часто сталкиваются с проблемами, связанными с неправильным отображением текста, что приводит к ошибкам, таким как опечатки и несоответствия. В данной статье мы рассмотрим новый метод, называемый Attention Modulated Overshooting sampler (AMO), который существенно улучшает качество рендеринга текста, не требуя дополнительного обучения.
Рендеринг текста в изображениях, сгенерированных на основе текстовых подсказок, представляет собой сложную задачу. Модели часто не могут точно отобразить текст, что ограничивает их использование в таких областях, как графический дизайн и реклама. Ошибки, такие как неправильное написание, отсутствие слов или даже "галлюцинация" новых слов, значительно снижают качество итогового изображения.
Хотя дообучение моделей на специально подобранных текстовых данных может улучшить качество рендеринга, этот процесс требует значительных затрат на сбор данных и вычислительные ресурсы, что делает его непрактичным для многих приложений. Кроме того, дообучение может непреднамеренно ухудшить общие способности модели к генерации изображений.
Мы предлагаем новый метод, который значительно улучшает качество рендеринга текста в сгенерированных изображениях. Метод основан на использовании Overshooting sampler для предобученных моделей Rectified Flow (RF). Этот подход включает в себя чередование между переобучением изученного обыкновенного дифференциального уравнения (ODE) и повторным введением шума.
Overshooting sampler работает, добавляя случайный шум к стандартному Эйлеровскому самплеру, сохраняя при этом маргинальное распределение. Это достигается за счет введения дополнительного термина динамики Ланжевена, который помогает корректировать накопляющуюся ошибку от последовательных шагов Эйлера, тем самым улучшая качество генерации текста.
Однако при слишком высоком уровне "overshooting" могут возникать артефакты, такие как чрезмерная сглаженность изображений. Для решения этой проблемы мы предлагаем адаптивное управление "overshooting" для различных участков изображения в зависимости от их значимости в контексте текстового содержимого.
AMO использует механизм внимания для адаптивного контроля силы overshooting для каждого патча изображения в зависимости от их оценок внимания к текстовому содержимому в подсказке. Это позволяет значительно улучшить точность рендеринга текста, увеличивая ее на 32.3% для SD3 и на 35.9% для Flux без ухудшения общего качества изображения.
AMO включает в себя три ключевых компонента: overshooting, компенсацию шума и модуляцию внимания. Каждый из этих компонентов играет важную роль в обеспечении точного рендеринга текста.
Overshooting: Этот компонент отвечает за добавление случайного шума к процессу генерации, что помогает исправить ошибки, возникающие в процессе Эйлера. Это достигается путем временного продвижения текущего состояния изображения вперед с использованием скорости, полученной из модели.
Компенсация шума: После overshooting мы возвращаемся к текущему времени, добавляя шум, чтобы гарантировать, что итоговое распределение остается корректным. Это позволяет сохранить маргинальное распределение.
Модуляция внимания: Этот компонент адаптивно регулирует силу overshooting для различных участков изображения. Это означает, что области, содержащие текст, получают большее внимание, в то время как менее важные области остаются менее затронутыми.
Алгоритм AMO можно описать следующими шагами:
Мы провели серию экспериментов с использованием открытых моделей текст-к-изображению, таких как SD3, Flux и AuraFlow. Генерация изображений выполнялась на GPU NVIDIA A40 с разрешением 1024x1024 пикселей.
Для оценки производительности моделей мы использовали сочетание автоматических и человеческих оценок. Автоматическая оценка включала в себя использование метрик, таких как точность OCR и F-мера OCR, а также визуально-текстуальное соответствие с использованием CLIPScore.
Результаты показали, что AMO значительно превосходит стандартный Эйлеровский самплер по точности рендеринга текста, достигая 82.5% точности на модели Flux. Визуальные сравнения также продемонстрировали, что AMO обеспечивает более четкий и читаемый текст, который ближе к заданным подсказкам.
AMO был также сравнен с другими методами, включая дообученные модели, такие как GlyphControl и TextDiffuser. Хотя дообученные модели показывали высокие результаты, AMO выделялся благодаря своей способности улучшать качество рендеринга текста без необходимости в дополнительном обучении, что делает его более универсальным решением.
Данная работа представляет собой значительный шаг вперед в области рендеринга текста в сгенерированных изображениях. Метод AMO, основанный на overshooting и модуляции внимания, демонстрирует значительное улучшение качества рендеринга текста без дополнительных затрат на обучение. Это открывает новые возможности для применения в различных областях, таких как графический дизайн и реклама.
Несмотря на достигнутые успехи, существует ряд ограничений, которые требуют дальнейшего изучения. В частности, необходимо провести систематическую оценку влияния overshooting на эстетические качества изображений и его применимость в других областях, таких как видео и 3D-моделирование. Будущие работы могут сосредоточиться на расширении возможностей AMO для более широкого спектра приложений и улучшении существующих методов оценки качества рендеринга текста.