Ай Дайджест - категория bottleneck

WF-VAE: Улучшение Видео VAE с помощью Энергетического Потока на Основе Вейвлетов для Моделей Диффузии Видео в Латентном Пространстве

Видеографический вариационный автокодировщик (VAE) кодирует видео в низкоразмерное латентное пространство, становясь ключевым компонентом большинства латентных моделей диффузии видео (LVDM), чтобы снизить затраты на обучение модели. Однако, с увеличением разрешения и длительности генерируемых видео, стоимость кодирования видеографических VAE становится ограничивающим фактором при обучении LVDM. Более того, метод блокового инференса, используемый большинством LVDM, может привести к дискретности латентного пространства при обработке длинных видео. Ключ к решению вычислительного узкого места заключается в разбиении видео на отдельные компоненты и эффективном кодировании критической информации. Преобразование вейвлетов может разложить видео на несколько компонент в частотной области и значительно повысить эффективность, поэтому мы предлагаем Wavelet Flow VAE (WF-VAE), автоэнкодер, который использует многоуровневое вейвлет-преобразование для облегчения потока низкочастотной энергии в латентное представление. Кроме того, мы вводим метод под названием Causal Cache, который поддерживает целостность латентного пространства во время блокового инференса. По сравнению с современными видеографическими VAE, WF-VAE демонстрирует превосходные результаты как по метрике PSNR, так и по метрике LPIPS, достигая в 2 раза более высокой пропускной способности и в 4 раза меньшего потребления памяти при сохранении конкурентоспособного качества реконструкции. Наш код и модели доступны по адресу https://github.com/PKU-YuanGroup/WF-VAE.

2024-12-03vae inference diffusion

Минимальное Энтропийное Сопряжение с Боттлнечком (MEC-B): Новый Подход к Потерям в Сжатии

В данной статье исследуется новая структура сжатия с потерями, работающая при логарифмических потерях, разработанная для обработки ситуаций, когда распределение восстановления отличается от исходного распределения. Эта структура особенно актуальна для приложений, требующих совместного сжатия и извлечения данных, а также в сценариях, связанных с изменениями распределения из-за обработки. Мы показываем, что предложенная формулировка расширяет классическую структуру минимальной энтропии связи за счет интеграции "узкого места", что позволяет контролировать степень стохастичности в связи. Мы исследуем разложение Минимальной Энтропии Связи с "узким местом" (MEC-B) на две отдельные задачи оптимизации: Максимизация Информации с Ограниченной Энтропией (EBIM) для кодера и Минимальная Энтропия Связи (MEC) для декодера. В ходе обширного анализа мы предлагаем жадный алгоритм для EBIM с гарантированными характеристиками производительности и описываем оптимальное решение вблизи функциональных отображений, что дает значительные теоретические инсайты в структурную сложность этой задачи. Более того, мы демонстрируем практическое применение MEC-B через эксперименты в играх с марковским кодированием (MCGs) при ограничениях на скорость передачи. Эти игры симулируют сценарий общения в рамках марковского процесса принятия решений, где агент должен передать сжатое сообщение от отправителя получателю через свои действия. Наши эксперименты выявляют компромиссы между вознаграждениями MDP и точностью получателя на различных скоростях сжатия, демонстрируя эффективность нашего метода по сравнению с традиционными базовыми методами сжатия.

2024-11-01optimization encoder bottleneck