Стильные решения: SNR-сэмплер для генерации изображений с учетом стиля

В мире, где искусственный интеллект и машинное обучение становятся всё более интегрированными в нашу повседневную жизнь, генерация изображений на основе текстовых запросов достигла впечатляющих высот. Однако, несмотря на успехи в создании фотографически реалистичных изображений, генерация уникальных стилей остаётся сложной задачей. В этой статье мы исследуем инновационный подход, предложенный в работе "Style-Friendly SNR Sampler for Style-Driven Generation" от авторов Джои Чой, Чэхуна Шина, Ёнтака О, Хисун Ким и Сунро Юн из Лаборатории данных и ИИ Сеульского национального университета.

Текстовые запросы к моделям генерации изображений, такие как Stable Diffusion и FLUX, позволяют создавать изображения, которые соответствуют описаниям, заданным пользователем. Однако, когда дело доходит до стилизации изображений, эти модели часто сталкиваются с ограничениями. Традиционные методы, такие как fine-tuning (тонкая настройка) с использованием эталонных изображений, могут не всегда точно отражать уникальные стилистические особенности, включая цветовые схемы, композиции, освещение и штрихи кисти.

Проблемы со стилями

Основная проблема заключается в том, что большинство моделей обучены на объекто-ориентированных данных, где акцент делается на точность и качество изображений объектов, а не на их стилистические особенности. Это приводит к тому, что модели плохо справляются с задачей генерации изображений в новых, неизвестных стилях, особенно если эти стили не были представлены в обучающих данных.

Предложенное решение: Style-Friendly SNR Sampler

В ответ на эти проблемы, авторы предложили новый метод, который называется Style-Friendly SNR Sampler. Этот подход направлен на улучшение способности моделей к генерации изображений с учетом стиля путем изменения распределения сигнал-шум (SNR) во время тонкой настройки.

Основные концепции

Распределение SNR: В процессе обучения диффузионных моделей, распределение SNR определяет, какие уровни шума важны для обучения. Авторы заметили, что стилистические особенности часто проявляются на более высоких уровнях шума, чем те, которые обычно используются для обучения на объекты.
Сдвиг распределения: Style-Friendly SNR Sampler активно сдвигает распределение SNR в сторону более высоких уровней шума, где стилистические элементы становятся более заметными. Это достигается путем выборки log-SNR из нормального распределения с пониженным средним значением.
Фокусировка на стиле: Благодаря этому сдвигу, модель обучается на шумах, которые наиболее информативны для стиля, что позволяет ей лучше улавливать и воспроизводить уникальные стили.

Примеры применения

Мемы: Метод позволяет генерировать мемы в различных стилях, например, "fluffy baby sloth with a knitted hat trying to figure out a laptop" в стиле мема "you just activated my trap card" или в виде многофреймового комикса.
Типография: Генерация текстов в уникальных стилях, таких как деревянная скульптура или минималистичный рисунок линиями.
Искусство: Создание изображений в стилях от акварельной живописи до 3D-рендеринга, что расширяет возможности для художников и дизайнеров.

Эксперименты и результаты

Авторы провели серию экспериментов, чтобы оценить эффективность своего метода. Они использовали модели FLUX-dev и Stable Diffusion 3.5, обучая их на 18 различных стилях из набора данных StyleDrop. Результаты показали значительное улучшение в точности воспроизведения стилей по сравнению с предыдущими методами:

Качество стиля: Style-Friendly SNR Sampler продемонстрировал лучшие показатели по метрикам DINO и CLIP-I, что свидетельствует о более точном отражении стиля эталонных изображений.
Сохранение контента: Метод также поддерживал высокую точность соответствия текстовому запросу, что было оценено с помощью CLIP-T.

Заключение

Style-Friendly SNR Sampler представляет собой значительный шаг вперёд в области генерации изображений с учетом стиля. Этот метод позволяет моделям не только создавать изображения, но и делать это с уникальными стилистическими особенностями, что открывает новые возможности для художников, дизайнеров и любителей создания контента. В будущем такие подходы могут стать стандартом для создания цифрового искусства и персонализированного контента, где стиль играет ключевую роль.

Статья на arxiv Оригинал pdf personalized noise sampler