Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "tokenizers"

Масштабирование токенизаторов изображений с помощью групповой сферической квантизации

Токенизаторы зрения приобрели большую популярность благодаря своей масштабируемости и компактности; предыдущие работы зависели от устаревших гиперпараметров на основе GAN, предвзятых сравнений и недостатка комплексного анализа масштабируемого поведения. Чтобы решить эти проблемы, мы представляем Групповую Сферическую Квантовку (GSQ), которая включает инициализацию шарового кодовогоbook и регуляризацию поиска, чтобы ограничить латентный кодовыйbook на сферической поверхности. Наш эмпирический анализ стратегий обучения токенизаторов изображений демонстрирует, что GSQ-GAN достигает превосходного качества реконструкции по сравнению с современными методами при меньшем количестве итераций обучения, обеспечивая надежную основу для исследований масштабирования. Основываясь на этом, мы систематически изучаем масштабируемое поведение GSQ, в частности в отношении латентной размерности, размера кодовогоbook и коэффициентов сжатия, а также их влияние на производительность модели. Наши выводы показывают различные поведения на высоких и низких уровнях пространственного сжатия, подчеркивая проблемы в представлении многомерных латентных пространств. Мы показываем, что GSQ может реконструировать многомерные латентные пространства в компактные, низкоразмерные пространства, что позволяет эффективно масштабироваться с улучшенным качеством. В результате, GSQ-GAN достигает 16-кратного уменьшения сжатия с реконструкцией FID (rFID) 0.50.