Свежая выжимка ml и AI статей - каждый день
В последние годы визуальные токенизаторы стали краеугольным камнем в области генерации изображений, позволяя трансформерным моделям превосходно справляться с задачами создания изображений. Однако традиционные подходы, такие как VQGAN, сталкиваются с серьезными ограничениями при увеличении размера словаря. В этой статье мы исследуем новый метод, известный как Factorized Quantization (FQ), который решает эти проблемы, предлагая более эффективное и масштабируемое решение для визуальной токенизации.
Визуальные токенизаторы преобразуют визуальные данные в дискретные токены, что позволяет использовать мощные трансформерные модели для генерации изображений. Качество токенизации напрямую влияет на точность и детализацию восстановления и генерации изображений. Традиционные VQ-токенизаторы, такие как VQGAN, используют структуру кодировщик-квантизатор-декодер, где квантизатор преобразует латентные признаки в дискретные токены с помощью векторной квантизации (VQ). Однако при увеличении размера словаря до 16,384 и выше возникают проблемы с нестабильностью обучения и насыщением производительности.
Увеличение размера словаря в VQ-токенизаторах приводит к следующим проблемам:
Для решения этих проблем мы предлагаем метод факторизованной квантизации (FQ), который разбивает большой словарь на несколько независимых подсловарей. Это позволяет:
FQ разделяет словарь на ( k ) подсловарей, где каждый подсловарь обучается независимо:
Для предотвращения избыточности и обеспечения уникальности каждого подсловари, мы вводим механизм регуляризации дизентанглирования: [ L_{\text{disentangle}} = \frac{1}{n} \sum_{i=1}^n (q_1^T q_2)^2 ] где ( q_1 ) и ( q_2 ) - квантизованные признаки из двух подсловарей, а ( n ) - количество сэмплов в батче. Это минимизирует скалярное произведение между кодами, поощряя ортогональность.
Для улучшения семантической значимости токенизатора мы интегрируем обучение представлений, используя предобученные модели, такие как CLIP и DINOv2:
Эти модели помогают токенизатору учиться на разных уровнях семантических представлений, что улучшает качество восстановления и генерации изображений.
Мы использовали стандартный бенчмарк ImageNet для обучения и оценки наших токенизаторов и моделей генерации. Наши эксперименты включали варианты FQGAN с двумя (FQGAN-Dual) и тремя (FQGAN-Triple) подсловари.
Визуализация показала, что каждый подсловарь в FQGAN-Dual и FQGAN-Triple специализируется на различных аспектах изображения:
FQGAN предлагает новый подход к визуальной токенизации, который решает проблемы масштабируемости и стабильности, присущие традиционным VQ-токенизаторам. Использование факторизованной квантизации, дизентанглирования и обучения представлений позволяет создать более выразительные и семантически богатые представления изображений. Наши эксперименты показали, что FQGAN не только улучшает качество восстановления изображений, но и может быть эффективно интегрирован в задачи генерации изображений, предоставляя перспективы для дальнейших исследований в области визуальной токенизации и генерации.