Ай Дайджест - категория dimensionality

Обучение сжатия для сжатого обучения: концепции и реализация WaLLoC

Современные датчики производят все более богатые потоки данных высокого разрешения. Из-за ограничения ресурсов системы машинного обучения отказываются от подавляющего большинства этой информации путем снижения разрешения. Обучение в сжатом домене позволяет моделям работать с компактными латентными представлениями, что обеспечивает более высокое эффективное разрешение при том же бюджете. Однако существующие системы сжатия не идеальны для сжатого обучения. Кодирование линейных преобразований и системы сжатия, обученные от начала до конца, уменьшают битрейт, но не равномерно снижают размерность; таким образом, они незначительно увеличивают эффективность. Генеративные автокодировщики уменьшают размерность, но их антагонистические или перцептивные цели приводят к значительной потере информации. Чтобы решить эти проблемы, мы представляем WaLLoC (Wavelet Learned Lossy Compression), архитектуру нейронного кодека, которая сочетает кодирование линейных преобразований с нелинейными автокодировщиками, уменьшающими размерность. WaLLoC помещает поверхностный, асимметричный автокодировщик и энтропийную узкую часть между обратимым преобразованием вейвлет-пакета. По нескольким ключевым метрикам WaLLoC превосходит автокодировщики, используемые в современных моделях латентного диффузионного обучения. WaLLoC не требует перцептивных или антагонистических потерь для представления высокочастотных деталей, что обеспечивает совместимость с модальностями, выходящими за рамки RGB-изображений и стереозвука. Кодировщик WaLLoC почти полностью состоит из линейных операций, что делает его исключительно эффективным и подходящим для мобильных вычислений, дистанционного зондирования и обучения непосредственно на сжатых данных. Мы демонстрируем возможности WaLLoC для обучения в сжатом домене в рамках нескольких задач, включая классификацию изображений, колоризацию, понимание документов и разделение источников музыки. Наш код, эксперименты и предварительно обученные аудио и видеокодеки доступны по адресу https://ut-sysml.org/walloc.

2024-12-13efficiency sensors compression

Масштабирование токенизаторов изображений с помощью групповой сферической квантизации

Токенизаторы зрения приобрели большую популярность благодаря своей масштабируемости и компактности; предыдущие работы зависели от устаревших гиперпараметров на основе GAN, предвзятых сравнений и недостатка комплексного анализа масштабируемого поведения. Чтобы решить эти проблемы, мы представляем Групповую Сферическую Квантовку (GSQ), которая включает инициализацию шарового кодовогоbook и регуляризацию поиска, чтобы ограничить латентный кодовыйbook на сферической поверхности. Наш эмпирический анализ стратегий обучения токенизаторов изображений демонстрирует, что GSQ-GAN достигает превосходного качества реконструкции по сравнению с современными методами при меньшем количестве итераций обучения, обеспечивая надежную основу для исследований масштабирования. Основываясь на этом, мы систематически изучаем масштабируемое поведение GSQ, в частности в отношении латентной размерности, размера кодовогоbook и коэффициентов сжатия, а также их влияние на производительность модели. Наши выводы показывают различные поведения на высоких и низких уровнях пространственного сжатия, подчеркивая проблемы в представлении многомерных латентных пространств. Мы показываем, что GSQ может реконструировать многомерные латентные пространства в компактные, низкоразмерные пространства, что позволяет эффективно масштабироваться с улучшенным качеством. В результате, GSQ-GAN достигает 16-кратного уменьшения сжатия с реконструкцией FID (rFID) 0.50.

2024-12-04tokenizers quantization gan