Диффузионная самодистилляция для нулевого кастомизированного генерации изображений

В последние годы модели диффузии, преобразующие текст в изображение, установили новые стандарты в синтезе изображений, демонстрируя выдающиеся результаты. Однако несмотря на их впечатляющую способность генерировать изображения на основе текстовых подсказок, эти модели часто не обеспечивают необходимый уровень контроля, редактируемости и согласованности. Эти характеристики критически важны для реальных приложений, таких как создание контента для искусства и дизайна.

Одной из распространенных задач является создание изображений конкретного концепта в новых контекстах, что требует от модели сохранения идентичности объекта. Это задача, требующая более глубокого понимания входного изображения и концепции, чтобы адаптировать и кастомизировать желаемую идентичность. В данной статье представлена новая методология, называемая Диффузионная самодистилляция (Diffusion Self-Distillation), которая предлагает решение для мгновенной кастомизации изображений без необходимости дополнительного обучения на этапе вывода.

Проблема идентичности в генерации изображений

Сохранение идентичности объекта в процессе генерации изображений представляет собой сложную задачу. Существуют два основных типа редактирования:

Редактирование, сохраняющее структуру: здесь целевое и исходное изображения имеют схожую общую компоновку, но могут отличаться по стилю, текстуре или другим локальным признакам.
Редактирование, сохраняющее идентичность: в этом случае объекты должны оставаться узнаваемыми, даже если их структура претерпевает значительные изменения.

Задача сохранения идентичности является более сложной, так как требует от модели способности извлекать и адаптировать концепты, которые могут быть преобразованы в различных контекстах.

Диффузионная самодистилляция

Диффузионная самодистилляция представляет собой метод, который использует предобученные модели текст-к-изображению для генерации собственного набора данных для задач генерации изображений на основе текста. Основная идея заключается в том, чтобы создать изображения с сохранением идентичности, используя возможности предобученной модели диффузии.

Процесс генерации парных данных

Процесс начинается с генерации сетов изображений, которые демонстрируют желаемую идентичность, с использованием предобученной модели текст-к-изображению. Сначала создаются гриды изображений, а затем они курируются с помощью модели «зрение-язык» (Vision-Language Model, VLM). Этот процесс позволяет автоматически создавать парные данные, которые затем используются для дообучения модели.

Генерация базовых данных: Используя предобученную модель диффузии, мы создаем наборы изображений, которые содержат одну и ту же сущность, но с различными изменениями в выражении, позе и условиях освещения.
Генерация подсказок с помощью LLM: Для создания разнообразных подсказок мы используем большие языковые модели (LLM), которые помогают генерировать текстовые подсказки для изображений.
Курация данных с помощью VLM: Сгенерированные изображения проходят через VLM, который классифицирует, являются ли изображения идентичными по основным объектам. Это позволяет автоматизировать процесс аннотирования и курирования данных.

Архитектура параллельной обработки

Для эффективного выполнения задач генерации изображений была разработана новая архитектура, которая позволяет одновременно обрабатывать информацию из двух изображений: исходного и целевого. Это достигается путем обработки входного изображения как первого кадра в двухкадровой последовательности, где первый кадр восстанавливает входное изображение, а второй — представляет собой отредактированный вывод.

Преимущества и применение

Метод Диффузионной самодистилляции предлагает множество преимуществ:

Мгновенная кастомизация: Позволяет пользователям мгновенно адаптировать изображения без необходимости в дополнительном обучении модели.
Универсальность: Метод может быть применен для различных задач, таких как генерация персонажей, управление камерой, релейтинг и кастомизация активов.
Снижение затрат на данные: Устранение необходимости в ручном создании парных данных, что значительно снижает затраты времени и ресурсов.

Эксперименты и результаты

В рамках экспериментов была проведена оценка производительности метода на различных задачах, связанных с сохранением идентичности. Результаты показали, что Диффузионная самодистилляция превосходит существующие методы нулевой настройки и сопоставима с методами, требующими настройки на этапе вывода.

Качество генерации

Проведенные эксперименты продемонстрировали высокое качество генерации изображений, при этом сохраняется идентичность объектов и разнообразие выходных данных. В частности, модель показала отличные результаты в задачах, связанных с адаптацией персонажей и концептов.

Сравнение с базовыми моделями

В сравнении с существующими методами, такими как Textual Inversion и DreamBooth, метод Диффузионной самодистилляции продемонстрировал лучшие результаты в сохранении идентичности и соответствии запросам. Это подтверждается как количественными, так и качественными оценками, включая пользовательские исследования.

Заключение

Диффузионная самодистилляция представляет собой значительный шаг вперед в области генерации изображений, предлагая мощный инструмент для кастомизации и сохранения идентичности объектов. Этот метод открывает новые горизонты для применения в искусстве, дизайне и цифровом повествовании, позволяя художникам и создателям контента быстрее и легче адаптировать свои работы.

В будущем можно ожидать дальнейших улучшений и расширений возможностей метода, включая интеграцию с другими моделями и расширение на новые задачи, такие как генерация видео.

Статья на arxiv Оригинал pdf generation curate model

Ай Дайджест