SNOOPI: Усовершенствованная одноступенчатая дистилляция диффузионных моделей

В последние годы диффузионные модели стали популярными благодаря своей способности генерировать высококачественные и разнообразные изображения. Эти модели работают, постепенно уменьшая шум в данных, что позволяет им достигать детализированных и реалистичных результатов. Однако, несмотря на их успехи, традиционные диффузионные модели требуют значительных вычислительных ресурсов и времени для генерации, что ограничивает их практическое применение. В связи с этим, исследователи активно ищут способы ускорения генерации без потери качества.

Одним из наиболее многообещающих подходов является дистилляция моделей, которая позволяет создавать более быстрые и эффективные "студенческие" модели, способные имитировать "учительские" модели. В данной статье мы рассмотрим новый фреймворк SNOOPI, который решает проблемы существующих одноступенчатых моделей, таких как нестабильность и отсутствие поддержки негативного управления.

Проблемы существующих моделей

Нестабильность в обучении

Одной из ключевых проблем текущих одноступенчатых моделей является нестабильность, возникающая при использовании фиксированной шкалы управления в рамках потерь вариационной оценки (Variational Score Distillation, VSD). Это приводит к непредсказуемым результатам при обучении разных архитектур моделей. Исследования показали, что использование фиксированной шкалы управления ограничивает адаптивность модели и снижает её производительность.

Отсутствие поддержки негативного управления

Другой важной проблемой является отсутствие поддержки негативного управления, что затрудняет исключение нежелательных элементов из сгенерированных изображений. В многократных диффузионных моделях негативное управление позволяет улучшить качество изображений, однако в одноступенчатых моделях эта возможность отсутствует, что ограничивает их гибкость и контроль.

Основные идеи SNOOPI

SNOOPI представляет собой новый фреймворк, который решает указанные выше проблемы, улучшая стабильность и контроль как в процессе обучения, так и во время генерации.

Proper Guidance-Swift Brush (PG-SB)

Первым компонентом SNOOPI является метод PG-SB, который использует динамическую шкалу управления для стабилизации процесса VSD. Вместо фиксированной шкалы, PG-SB применяет случайную шкалу управления, что позволяет расширить распределение выходных данных и повысить устойчивость модели к различным архитектурам. Это обеспечивает более надежную дистилляцию и позволяет модели эффективно работать с разнообразными диффузионными бэкбонами.

Negative-Away Steer Attention (NASA)

Вторым компонентом является метод NASA, который интегрирует негативные подсказки в одноступенчатые диффузионные модели через кросс-внимание. Это позволяет эффективно исключать нежелательные элементы из сгенерированных изображений, что раньше было доступно только в многократных моделях. NASA работает, настраивая кросс-внимание в промежуточном пространстве признаков, что позволяет фильтровать нежелательные элементы до генерации изображения.

Обучение и оценка

Процесс обучения

Обучение SNOOPI включает в себя использование как учительских, так и студенческих моделей. Учительские модели генерируют изображения, которые затем используются для обучения студенческой модели. В процессе обучения PG-SB применяется для динамической настройки шкалы управления, что позволяет улучшить стабильность и производительность модели.

Оценка производительности

Для оценки производительности SNOOPI используются различные метрики, включая Human Preference Score v2 (HPSv2) и Fréchet Inception Distance (FID). Эксперименты показывают, что предложенные методы значительно улучшают качество изображений по сравнению с базовыми моделями и устанавливают новые показатели в области одноступенчатой дистилляции.

Результаты экспериментов

Экспериментальные результаты показывают, что SNOOPI превосходит существующие подходы по различным метрикам, достигая HPSv2 оценки 31.08, что является новым рекордом для одноступенчатых диффузионных моделей. Это подтверждает эффективность предложенных методов PG-SB и NASA.

Заключение

Фреймворк SNOOPI представляет собой значительный шаг вперед в области одноступенчатой дистилляции диффузионных моделей. Благодаря динамическому управлению и интеграции негативных подсказок, SNOOPI обеспечивает более высокую стабильность и контроль, что делает его перспективным инструментом для генерации изображений. В будущем планируется расширение возможностей SNOOPI и его применение в различных областях, включая 3D-генерацию и другие задачи, требующие высокой гибкости и качества.

Статья на arxiv Оригинал pdf guidance diffusion attention

Ай Дайджест