HelloMeme: Интеграция пространственного вязания внимания для внедрения высококачественных и детализированных условий в модели диффузии

В мире, где визуальный контент доминирует, создание мемов и коротких видеороликов становится все более популярным. Однако, задача генерации мемов и видео с использованием искусственного интеллекта (AI) представляет собой сложный вызов, особенно когда речь идет о передаче преувеличенных выражений лица и поз головы. В этом контексте команда разработчиков из HelloGroup Inc. предложила новаторское решение, которое позволяет интегрировать высококачественные и детализированные условия в модели диффузии, сохраняя при этом обобщающую способность базовой модели. В данной статье мы рассмотрим основные концепции и методы, использованные в работе под названием "HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models".

Основная идея

Ключевым аспектом предложенного метода является оптимизация механизма внимания, связанного с 2D картами признаков, что улучшает производительность адаптера, вставленного в базовую модель. Этот подход был успешно проверен на задаче генерации мемов и видеороликов, показав значительные результаты. Метод также демонстрирует хорошую совместимость с производными моделями SD1.5, что делает его ценным для сообщества разработчиков открытого ПО.

Три основных модуля

Решение состоит из трех модулей:

HMReferenceNet - используется для извлечения детализированных признаков из эталонного изображения. Этот модуль представляет собой полную SD1.5 UNet, которая выполняется только один раз во время вывода.
HMControlNet - отвечает за извлечение высокоуровневых признаков, таких как позы головы и выражения лица. Эти признаки затем отображаются на три разных масштаба латентного пространства в UNet.
HMDenoisingNet - это основной модуль для удаления шума, который получает признаки от HMReferenceNet и HMControlNet, чтобы сгенерировать изображение с новыми позами головы и выражениями лица. HMDenoisingNet также может интегрироваться с модулем Animatediff для генерации видеокадров.

Пространственное вязание внимания (SK Attention)

Одной из инноваций в данном исследовании является механизм Spatial Knitting Attentions (SK Attention). Этот механизм позволяет сохранять структурную информацию в 2D картах признаков, что важно для понимания и генерации изображений с высокой детализацией.

Как работает SK Attention

В традиционных моделях внимания 2D карты признаков обычно уплощаются в линейные признаки, что приводит к потере пространственной структуры. В SK Attention, внимание сначала применяется по строкам, а затем по столбцам, что позволяет сохранить структуру 2D. Это напоминает процесс переплетения нитей во время ткачества, отсюда и название "пространственное вязание".

SKCrossAttention: Используется для слияния 2D карт признаков с линейными признаками. Сначала выполняется внимание по строкам, затем по столбцам.
SKReferenceAttention: Используется для слияния двух 2D карт признаков. Карты сначала конкатенируются по строкам, затем выполняется само-внимание вдоль строк, после чего сохраняется только первая половина каждой строки. Аналогичная операция выполняется по столбцам.

Эксперименты и результаты

Эксперименты показали, что использование SK Attention значительно улучшает качество генерации изображений и видеороликов, особенно в условиях преувеличенных выражений лица и поз головы. Метод был протестирован на различных наборах данных, включая CelebV-HQ и VFHQ, и показал превосходство над другими современными методами по нескольким метрикам, таким как FID, PSNR, SSIM и LPIPS.

Качественное сравнение

Визуальное сравнение результатов показывает, что метод HelloMeme справляется с окклюзиями, сложными выражениями и большими движениями головы лучше, чем другие методы. Однако, как и в любом исследовании, есть области для дальнейшего улучшения, такие как непрерывность кадров в видео и сохранение стилизации при использовании моделей, специализированных на портретах.

Заключение

Работа "HelloMeme" представляет собой значительный шаг вперед в области генерации изображений и видео с использованием моделей диффузии. Интеграция пространственного вязания внимания позволяет модели лучше понимать и воспроизводить сложные визуальные условия, сохраняя при этом обобщающую способность базовой модели. Это открывает новые возможности для создания мемов и видеоконтента, который может быть использован в различных креативных и маркетинговых целях. В будущем, с дальнейшим развитием алгоритмов и аппаратного обеспечения, мы можем ожидать еще более впечатляющих результатов от подобных подходов.

Статья на arxiv Оригинал pdf adapters optimization attention

Ай Дайджест