DreamCache: Легковесная и персонализированная генерация изображений без дообучения

С недавними достижениями в области генерации изображений на основе текста, особенно благодаря моделям диффузии, стало возможным создавать высококачественные и разнообразные изображения по текстовым описаниям. Однако персонализация этих моделей, позволяющая генерировать уникальные изображения конкретного объекта в различных контекстах, остаётся сложной задачей. Традиционные методы требуют сложного обучения и значительных вычислительных ресурсов, что делает их непрактичными для многих приложений.

В этой статье мы представляем DreamCache — новый подход к персонализированной генерации изображений, который использует механизм кэширования признаков. Этот метод позволяет динамически модулировать генерируемые изображения с минимальными затратами на обучение и вычисления, что делает его эффективным и масштабируемым решением.

Основные проблемы существующих методов

Существующие методы персонализации изображений можно разделить на две категории: методы с дообучением и без дообучения. Методы с дообучением, такие как DreamBooth, требуют оптимизации модели для каждого конкретного объекта, что может занять много времени и ресурсов. В то же время, методы без дообучения, которые используют кодировщики или ссылки на изображения, также имеют свои недостатки — они требуют извлечения признаков на каждом этапе генерации, что увеличивает вычислительные затраты.

DreamCache предлагает решение, которое позволяет избежать этих проблем, используя механизм кэширования признаков для эффективной и качественной генерации изображений.

Архитектура DreamCache

DreamCache использует предобученную модель диффузии и адаптеры, которые настраиваются на основе синтетического набора данных. Основная идея заключается в кэшировании признаков изображения-референса из нескольких слоёв модели U-Net во время одной итерации, что позволяет избежать необходимости в текстовом условии для извлечения визуального контента.

Кэширование признаков

Кэширование признаков осуществляется путём выполнения прямого прохода через денойзер модели диффузии на одном временном шаге. Мы выбираем наименее шумный временной шаг для получения чистых признаков, которые оптимальны для дальнейшей генерации. Это позволяет избежать необходимости в пользовательских текстовых подсказках, что упрощает процесс персонализации.

Условия генерации

Механизм адаптеров DreamCache включает в себя кросс-внимание между кэшированными признаками и признаками генерируемого изображения. Это позволяет интегрировать информацию о референсном объекте в процесс генерации, сохраняя при этом контекстуальную информацию. Адаптеры, обученные на синтетическом наборе данных, обеспечивают генерацию изображений без необходимости в дополнительном дообучении для каждого нового референса.

Эффективность и производительность

DreamCache достигает состояния искусства в качестве генерации изображений с существенно меньшими вычислительными затратами по сравнению с существующими методами. Например, в то время как методы, такие как BLIP-Diffusion, требуют значительных ресурсов, DreamCache использует всего 25 миллионов дополнительных параметров, что делает его значительно легче и быстрее.

Сравнение с другими методами

При сравнении с другими методами, DreamCache демонстрирует конкурентоспособные или даже превосходящие результаты по качеству генерации. Например, в экспериментах с использованием наборов данных DreamBooth, DreamCache показал лучшие показатели в отношении сохранения признаков и текстового выравнивания.

Экспериментальные результаты

Мы провели обширные эксперименты, чтобы оценить эффективность DreamCache. Результаты показывают, что наш метод не только сохраняет высокое качество изображений, но и значительно снижает время генерации. В частности, DreamCache требует меньше времени на генерацию изображений по сравнению с методами, основанными на дообучении, такими как DreamBooth.

Качественные и количественные оценки

Для количественной оценки мы использовали метрики DINO и CLIP для измерения сходства между сгенерированными и референсными изображениями. DreamCache показал высокие результаты по обеим метрикам, что подтверждает его способность сохранять детали и текстовое выравнивание.

Визуализация влияния кэширования

Мы также визуализировали влияние кэширования признаков на процесс генерации, что показало, что внимание сосредоточено на референсном объекте, минимизируя влияние фона. Это позволяет избежать проблем, связанных с фоновыми помехами, которые часто встречаются в других методах.

Заключение

DreamCache представляет собой значительный шаг вперёд в области персонализированной генерации изображений. Мы продемонстрировали, что использование механизма кэширования признаков позволяет значительно снизить вычислительные затраты, сохраняя при этом высокое качество генерации. Этот подход открывает новые возможности для применения генеративных моделей в реальном времени, особенно на устройствах с ограниченными ресурсами.

Хотя DreamCache уже показывает многообещающие результаты, необходимо дальнейшее исследование для решения проблем, связанных с генерацией изображений для сложных многосубъектных сценариев и абстрактных изображений. В будущем мы планируем исследовать адаптивные методы кэширования и интеграцию многореференсных признаков, чтобы улучшить качество генерации и расширить возможности применения нашего метода.

Статья на arxiv Оригинал pdf training inference models

Ай Дайджест