Эффективное генеративное моделирование с использованием токенов на основе остаточной векторной квантизации
Мы исследуем использование остаточной векторной квантизации (RVQ) для генерации высокой точности в векторно-квантизированных генеративных моделях. Эта техника квантизации поддерживает более высокую точность данных, используя более глубокие токены. Однако увеличение числа токенов в генеративных моделях приводит к более медленным скоростям вывода. С этой целью мы представляем ResGen, эффективную дискретную модель диффузии на основе RVQ, которая генерирует образцы высокой точности без ущерба для скорости выборки. Наша ключевая идея заключается в прямом прогнозировании векторного представления коллективных токенов, а не отдельных. Более того, мы показываем, что предложенный нами метод маскирования токенов и прогнозирования нескольких токенов можно сформулировать в рамках обоснованной вероятностной модели, используя дискретный процесс диффузии и вариационное вывод. Мы подтверждаем эффективность и обобщаемость предложенного метода на двух сложных задачах в различных модальностях: условная генерация изображений на ImageNet 256x256 и синтез текста в речь без примеров. Экспериментальные результаты демонстрируют, что ResGen превосходит авторегрессионные аналоги в обеих задачах, обеспечивая превосходную производительность без ущерба для скорости выборки. Более того, по мере увеличения глубины RVQ наши генеративные модели демонстрируют повышенную точность генерации или более быстрые скорости выборки по сравнению с аналогичными базовыми моделями. Страница проекта доступна по адресу https://resgen-genai.github.io