Генерация Изображений Людей с Контролем Параметров: Метод Leffa
Генерация изображений управляемых людей направлена на создание изображений человека, основанных на эталонных изображениях, позволяя точно контролировать внешний вид или позу человека. Однако предыдущие методы часто искажают детализированные текстурные данные из эталонного изображения, несмотря на достижение высокого общего качества изображения. Мы связываем эти искажения с недостаточным вниманием к соответствующим регионам в эталонном изображении. Чтобы решить эту проблему, мы предлагаем обучение полям потока внимания (Leffa), которое явно направляет целевой запрос на правильный эталонный ключ в слое внимания во время обучения. В частности, это реализуется через регуляризационную потерю на основе карты внимания внутри базовой модели на основе диффузии. Наши обширные эксперименты показывают, что Leffa достигает передовых результатов в контроле внешнего вида (виртуальная примерка) и позы (передача позы), значительно уменьшая искажения тонких деталей, при этом сохраняя высокое качество изображения. Кроме того, мы показываем, что наша потеря является независимой от модели и может быть использована для улучшения производительности других моделей диффузии.