SNOOPI: Усовершенствованная одноступенчатая дистилляция диффузионных моделей
Недавние подходы дали обнадеживающие результаты в дистилляции многоступенчатых моделей диффузии текста в изображение в одноступенчатые. Современная эффективная техника дистилляции, а именно SwiftBrushv2 (SBv2), даже превосходит производительность модель-учителя при ограниченных ресурсах. Однако наше исследование показывает ее нестабильность при работе с разными основами моделей диффузии из-за использования фиксированной шкалы управления внутри потерь Вариационной Дистилляции Оценки (VSD). Еще одной слабостью существующих одноступенчатых моделей диффузии является отсутствие поддержки отрицательной подсказки, что критически важно в практической генерации изображений. Эта статья представляет SNOOPI, новую структуру, разработанную для решения этих ограничений путем улучшения управления в одноступенчатых моделях диффузии как в процессе обучения, так и в процессе вывода. Во-первых, мы эффективно увеличиваем стабильность обучения через Правильное Управление-SwiftBrush (PG-SB), которое использует подход классификации без-guidance с произвольной шкалой. Путем изменения шкалы управления у обеих модель-учителей мы расширяем их распределения выходных данных, что приводит к более надежным потерям VSD, которые позволяют SB эффективно работать с разнообразными основами, сохраняя при этом конкурентоспособную производительность. Во-вторых, мы предлагаем метод без обучения, называемый Вниманием Направленным Вперёд Отрицательно (NASA), который интегрирует отрицательные подсказки в одноступенчатые модели диффузии через перекрестное внимание, чтобы подавить нежелательные элементы в генерируемых изображениях. Наши экспериментальные результаты показывают, что предлагаемые нами методы значительно улучшают базовые модели по различным метрикам. Удивительно, но мы достигаем балла HPSv2 31.08, устанавливая новую современную эталонную оценку для одноступенчатых моделей диффузии.