Свежая выжимка ml и AI статей - каждый день
В последние годы модели диффузии, преобразующие текст в изображение, установили новые стандарты в синтезе изображений, демонстрируя выдающиеся результаты. Однако несмотря на их впечатляющую способность генерировать изображения на основе текстовых подсказок, эти модели часто не обеспечивают необходимый уровень контроля, редактируемости и согласованности. Эти характеристики критически важны для реальных приложений, таких как создание контента для искусства и дизайна.
Одной из распространенных задач является создание изображений конкретного концепта в новых контекстах, что требует от модели сохранения идентичности объекта. Это задача, требующая более глубокого понимания входного изображения и концепции, чтобы адаптировать и кастомизировать желаемую идентичность. В данной статье представлена новая методология, называемая Диффузионная самодистилляция (Diffusion Self-Distillation), которая предлагает решение для мгновенной кастомизации изображений без необходимости дополнительного обучения на этапе вывода.
Сохранение идентичности объекта в процессе генерации изображений представляет собой сложную задачу. Существуют два основных типа редактирования:
Задача сохранения идентичности является более сложной, так как требует от модели способности извлекать и адаптировать концепты, которые могут быть преобразованы в различных контекстах.
Диффузионная самодистилляция представляет собой метод, который использует предобученные модели текст-к-изображению для генерации собственного набора данных для задач генерации изображений на основе текста. Основная идея заключается в том, чтобы создать изображения с сохранением идентичности, используя возможности предобученной модели диффузии.
Процесс начинается с генерации сетов изображений, которые демонстрируют желаемую идентичность, с использованием предобученной модели текст-к-изображению. Сначала создаются гриды изображений, а затем они курируются с помощью модели «зрение-язык» (Vision-Language Model, VLM). Этот процесс позволяет автоматически создавать парные данные, которые затем используются для дообучения модели.
Генерация базовых данных: Используя предобученную модель диффузии, мы создаем наборы изображений, которые содержат одну и ту же сущность, но с различными изменениями в выражении, позе и условиях освещения.
Генерация подсказок с помощью LLM: Для создания разнообразных подсказок мы используем большие языковые модели (LLM), которые помогают генерировать текстовые подсказки для изображений.
Курация данных с помощью VLM: Сгенерированные изображения проходят через VLM, который классифицирует, являются ли изображения идентичными по основным объектам. Это позволяет автоматизировать процесс аннотирования и курирования данных.
Для эффективного выполнения задач генерации изображений была разработана новая архитектура, которая позволяет одновременно обрабатывать информацию из двух изображений: исходного и целевого. Это достигается путем обработки входного изображения как первого кадра в двухкадровой последовательности, где первый кадр восстанавливает входное изображение, а второй — представляет собой отредактированный вывод.
Метод Диффузионной самодистилляции предлагает множество преимуществ:
В рамках экспериментов была проведена оценка производительности метода на различных задачах, связанных с сохранением идентичности. Результаты показали, что Диффузионная самодистилляция превосходит существующие методы нулевой настройки и сопоставима с методами, требующими настройки на этапе вывода.
Проведенные эксперименты продемонстрировали высокое качество генерации изображений, при этом сохраняется идентичность объектов и разнообразие выходных данных. В частности, модель показала отличные результаты в задачах, связанных с адаптацией персонажей и концептов.
В сравнении с существующими методами, такими как Textual Inversion и DreamBooth, метод Диффузионной самодистилляции продемонстрировал лучшие результаты в сохранении идентичности и соответствии запросам. Это подтверждается как количественными, так и качественными оценками, включая пользовательские исследования.
Диффузионная самодистилляция представляет собой значительный шаг вперед в области генерации изображений, предлагая мощный инструмент для кастомизации и сохранения идентичности объектов. Этот метод открывает новые горизонты для применения в искусстве, дизайне и цифровом повествовании, позволяя художникам и создателям контента быстрее и легче адаптировать свои работы.
В будущем можно ожидать дальнейших улучшений и расширений возможностей метода, включая интеграцию с другими моделями и расширение на новые задачи, такие как генерация видео.