Ай Дайджест - категория vae

Защита от подражания с использованием персонализированных диффузионных моделей

Недавние достижения в моделях диффузии революционизируют генерацию изображений, но представляют собой риски неправильного использования, такие как воспроизведение художественных произведений или создание дипфейков. Существующие методы защиты изображений, хотя и эффективны, испытывают трудности с балансировкой эффективности защиты, невидимости и задержки, что ограничивает практическое применение. Мы представляем предварительное обучение с помехами для снижения задержки и предлагаем подход смешивания помех, который динамически адаптируется к входным изображениям для минимизации ухудшения производительности. Наша новая стратегия обучения вычисляет потерю защиты в нескольких пространствах признаков VAE, в то время как адаптивная целевая защита на этапе вывода повышает надежность и невидимость. Эксперименты показывают сопоставимую эффективность защиты с улучшенной невидимостью и значительно сокращенным временем вывода. Код и демонстрация доступны по адресу https://webtoon.github.io/impasto

2024-12-17training deepfake diffusion

Mogo: Иерархический Каскадный Трансформер для Генерации 3D Движений Человека

В области генерации текста в движение модели маскированного типа Bert (MoMask, MMM) в настоящее время производят более качественные результаты по сравнению с автогенеративными моделями типа GPT (T2M-GPT). Однако эти модели типа Bert часто не обладают возможностью потокового вывода, необходимой для применения в видеоиграх и мультимедийных средах, что является внутренней особенностью моделей типа GPT. Кроме того, они демонстрируют более слабую производительность в генерации вне распределения. Чтобы превзойти качество моделей типа BERT, используя структуру типа GPT, не добавляя дополнительных моделей уточнения, которые усложняют масштабирование данных, мы предлагаем новую архитектуру Mogo (Motion Only Generate Once), которая генерирует высококачественные реалистичные 3D движения человека, обучая единственную модель трансформера. Mogo состоит только из двух основных компонентов: 1) RVQ-VAE, иерархический резидульный векторный квантизационный вариационный автокодировщик, который дискретизирует непрерывные последовательности движения с высокой точностью; 2) Иерархический каузальный трансформер, отвечающий за генерирование базовых последовательностей движения авторегрессивным способом, одновременно выводя остатки через разные слои. Экспериментальные результаты демонстрируют, что Mogo может генерировать непрерывные и циклические последовательности движения до 260 кадров (13 секунд), превышая ограничение длины в 196 кадров (10 секунд) существующих наборов данных, таких как HumanML3D. На тестовом наборе HumanML3D Mogo достигает FID-оценки 0.079, превышая как модель типа GPT T2M-GPT (FID = 0.116), так и AttT2M (FID = 0.112), а также модель типа BERT MMM (FID = 0.080). Более того, наша модель демонстрирует лучшее количественное выполнение в генерации вне распределения.

2024-12-12gpt bert vae

WF-VAE: Улучшение Видео VAE с помощью Энергетического Потока на Основе Вейвлетов для Моделей Диффузии Видео в Латентном Пространстве

Видеографический вариационный автокодировщик (VAE) кодирует видео в низкоразмерное латентное пространство, становясь ключевым компонентом большинства латентных моделей диффузии видео (LVDM), чтобы снизить затраты на обучение модели. Однако, с увеличением разрешения и длительности генерируемых видео, стоимость кодирования видеографических VAE становится ограничивающим фактором при обучении LVDM. Более того, метод блокового инференса, используемый большинством LVDM, может привести к дискретности латентного пространства при обработке длинных видео. Ключ к решению вычислительного узкого места заключается в разбиении видео на отдельные компоненты и эффективном кодировании критической информации. Преобразование вейвлетов может разложить видео на несколько компонент в частотной области и значительно повысить эффективность, поэтому мы предлагаем Wavelet Flow VAE (WF-VAE), автоэнкодер, который использует многоуровневое вейвлет-преобразование для облегчения потока низкочастотной энергии в латентное представление. Кроме того, мы вводим метод под названием Causal Cache, который поддерживает целостность латентного пространства во время блокового инференса. По сравнению с современными видеографическими VAE, WF-VAE демонстрирует превосходные результаты как по метрике PSNR, так и по метрике LPIPS, достигая в 2 раза более высокой пропускной способности и в 4 раза меньшего потребления памяти при сохранении конкурентоспособного качества реконструкции. Наш код и модели доступны по адресу https://github.com/PKU-YuanGroup/WF-VAE.

2024-12-03diffusion latent inference

Гауссиан Энисинг: Интерактивная генерация 3D с помощью точечного облака и латентной диффузии

В то время как создание трехмерного контента значительно продвинулось, существующие методы все еще сталкиваются с проблемами, связанными с форматами ввода, дизайном латентного пространства и представлениями вывода. В данной статье представлена новая 3D генеративная структура, которая решает эти проблемы, предлагая масштабируемое, высококачественное 3D-генерация с интерактивным латентным пространством, структурированным как облако точек. Наша структура использует вариационный автокодировщик (VAE) с многовидовыми позированными RGB-D (глубина)-N (нормали) визуализациями в качестве входных данных, применяя уникальный дизайн латентного пространства, который сохраняет информацию о 3D-форме, и включает каскадную модель диффузии латентного пространства для улучшения разделения формы и текстуры. Предлагаемый метод, GaussianAnything, поддерживает многомодальное условное 3D-генерация, позволяя использовать в качестве входных данных облака точек, подписи и изображения с одной или нескольких точек зрения. Особенно стоит отметить, что новое латентное пространство естественно обеспечивает разделение геометрии и текстуры, что позволяет проводить редактирование, учитывающее 3D. Экспериментальные результаты показывают эффективность нашего подхода на нескольких наборах данных, превосходя существующие методы как в текстовой, так и в изображения-условной 3D-генерации.

2024-11-18disentanglement pointcloud diffusion