Ай Дайджест - категория quantization

Эффективное генеративное моделирование с использованием токенов на основе остаточной векторной квантизации

Мы исследуем использование остаточной векторной квантизации (RVQ) для генерации высокой точности в векторно-квантизированных генеративных моделях. Эта техника квантизации поддерживает более высокую точность данных, используя более глубокие токены. Однако увеличение числа токенов в генеративных моделях приводит к более медленным скоростям вывода. С этой целью мы представляем ResGen, эффективную дискретную модель диффузии на основе RVQ, которая генерирует образцы высокой точности без ущерба для скорости выборки. Наша ключевая идея заключается в прямом прогнозировании векторного представления коллективных токенов, а не отдельных. Более того, мы показываем, что предложенный нами метод маскирования токенов и прогнозирования нескольких токенов можно сформулировать в рамках обоснованной вероятностной модели, используя дискретный процесс диффузии и вариационное вывод. Мы подтверждаем эффективность и обобщаемость предложенного метода на двух сложных задачах в различных модальностях: условная генерация изображений на ImageNet 256x256 и синтез текста в речь без примеров. Экспериментальные результаты демонстрируют, что ResGen превосходит авторегрессионные аналоги в обеих задачах, обеспечивая превосходную производительность без ущерба для скорости выборки. Более того, по мере увеличения глубины RVQ наши генеративные модели демонстрируют повышенную точность генерации или более быстрые скорости выборки по сравнению с аналогичными базовыми моделями. Страница проекта доступна по адресу https://resgen-genai.github.io

2024-12-16tokens generative inference

Масштабирование токенизаторов изображений с помощью групповой сферической квантизации

Токенизаторы зрения приобрели большую популярность благодаря своей масштабируемости и компактности; предыдущие работы зависели от устаревших гиперпараметров на основе GAN, предвзятых сравнений и недостатка комплексного анализа масштабируемого поведения. Чтобы решить эти проблемы, мы представляем Групповую Сферическую Квантовку (GSQ), которая включает инициализацию шарового кодовогоbook и регуляризацию поиска, чтобы ограничить латентный кодовыйbook на сферической поверхности. Наш эмпирический анализ стратегий обучения токенизаторов изображений демонстрирует, что GSQ-GAN достигает превосходного качества реконструкции по сравнению с современными методами при меньшем количестве итераций обучения, обеспечивая надежную основу для исследований масштабирования. Основываясь на этом, мы систематически изучаем масштабируемое поведение GSQ, в частности в отношении латентной размерности, размера кодовогоbook и коэффициентов сжатия, а также их влияние на производительность модели. Наши выводы показывают различные поведения на высоких и низких уровнях пространственного сжатия, подчеркивая проблемы в представлении многомерных латентных пространств. Мы показываем, что GSQ может реконструировать многомерные латентные пространства в компактные, низкоразмерные пространства, что позволяет эффективно масштабироваться с улучшенным качеством. В результате, GSQ-GAN достигает 16-кратного уменьшения сжатия с реконструкцией FID (rFID) 0.50.

2024-12-04compression scalability latency

Масштабирование трансформеров для кодирования речи с низким битрейтом и высоким качеством

Токенизация речи с помощью нейронных аудиокодеков является важной частью современных AI-пipelines для генерации или понимания речи, как отдельно, так и в мультимодальном контексте. Традиционно такие модели токенизации сосредоточивались на архитектурах с низким количеством параметров, используя только компоненты с сильными индуктивными предвзятостями. В данной работе мы показываем, что, увеличивая архитектуру трансформера с большим количеством параметров для решения этой задачи и применяя гибкое ограничение на конечную скалярную квантизацию (FSQ), можно достичь качества речи на уровне передовых технологий при крайне низких битовых скоростях 400 или 700 бит в секунду. Обученные модели значительно превосходят существующие базовые линии как в объективных, так и в субъективных тестах.

2024-12-02tokenization architecture quantization

Квантование с низкой битностью благоприятствует недообученным языковым моделям: законы масштабирования для квантованных языковых моделей с 100 триллионами токенов обучения

Мы раскрываем, что квантование с низким битовым разрешением благоприятствует недостаточно обученным большим языковым моделям (LLMs), наблюдая, что модели с большим размером или с меньшим количеством обучающих токенов испытывают меньшую деградацию, вызванную квантованием (QiD), при применении квантования с низким битовым разрешением, тогда как меньшие модели с обширным количеством обучающих токенов страдают от значительной QiD. Чтобы глубже понять эту тенденцию, мы изучили более 1500 квантованных контрольных точек LLM различных размеров и на разных уровнях обучения (недостаточно обученные или полностью обученные) в контролируемой среде, выводя законы масштабирования для понимания взаимосвязи между QiD и такими факторами, как количество обучающих токенов, размер модели и битовая ширина. С использованием полученных законов масштабирования мы предлагаем новую перспективу, согласно которой QiD можно использовать для оценки уровня обучения LLM и определения количества обучающих токенов, необходимых для полного обучения LLM различных размеров. Более того, мы используем законы масштабирования для прогнозирования производительности квантования LLM разных размеров, обученных на 100 триллионах токенов. Наше прогнозирование показывает, что производительность квантования с низким битовым разрешением будущих моделей, которые, как ожидается, будут обучены более чем на 100 триллионах токенов, может быть нежелательной. Это создает потенциальный вызов для квантования с низким битовым разрешением в будущем и подчеркивает необходимость учета уровня обучения модели при оценке исследований по квантованию с низким битовым разрешением. Для содействия будущим исследованиям по этой проблеме мы публикуем все 1500+ квантованных контрольных точек, использованных в этой работе, на сайте https://huggingface.co/Xu-Ouyang.

2024-11-27performance models training

Факторизованная визуальная токенизация и генерация

Визуальные токенизаторы являются фундаментальными для генерации изображений. Они преобразуют визуальные данные в дискретные токены, позволяя моделям на базе трансформеров превосходно справляться с генерацией изображений. Несмотря на их успех, токенизаторы на основе векторного квантования (VQ), такие как VQGAN, сталкиваются с значительными ограничениями из-за ограниченных размеров словаря. Простое расширение кодбука часто приводит к нестабильности обучения и уменьшению прироста производительности, что делает масштабируемость критической проблемой. В данной работе мы представляем Факторизованное Квантование (FQ), новый подход, который оживляет токенизаторы на основе VQ, разлагая большой кодбук на несколько независимых подкодбуков. Это разложение уменьшает сложность поиска в больших кодбуках, обеспечивая более эффективную и масштабируемую визуальную токенизацию. Для того чтобы каждый подкодбук захватывал различную и дополняющую информацию, мы предлагаем регуляризацию разъединения, которая явно снижает избыточность, способствуя разнообразию среди подкодбуков. Более того, мы интегрируем обучение представлений в процесс обучения, используя предобученные модели видения, такие как CLIP и DINO, для придания семантической насыщенности изучаемым представлениям. Эта конструкция обеспечивает, что наш токенизатор захватывает разнообразные семантические уровни, что приводит к более выразительным и разъединенным представлениям. Эксперименты показывают, что предложенная модель FQGAN значительно улучшает качество восстановления визуальных токенизаторов, достигая передовых результатов. Мы также демонстрируем, что этот токенизатор может быть эффективно адаптирован для автопрогрессивной генерации изображений. [Ссылка на проект](https://showlab.github.io/FQGAN)

2024-11-26transformer regularization tokenization

SageAttention2: Технический отчет

Хотя квантование для линейных слоев широко используется, его применение для ускорения процесса внимания остается ограниченным. SageAttention использует умножение матриц на 8 бит, умножение матриц на 16 бит с аккумулятором на 16 бит и методы повышения точности, реализуя точное и ускоренное на 2 раза ядро по сравнению с FlashAttention2. Для дальнейшего улучшения эффективности вычислений внимания при сохранении точности мы предлагаем SageAttention2, который использует значительно более быстрое умножение матриц на 4 бита (Matmul) вместе с дополнительными методами повышения точности. Во-первых, мы предлагаем квантование матриц (Q, K) до INT4 на уровне warp и квантование матриц (widetilde P, V) до FP8. Во-вторых, мы предлагаем метод для сглаживания Q и V, повышая точность внимания с INT4 QK и FP8 PV. В-третьих, мы анализируем точность квантования по временным шагам и слоям, затем предлагаем адаптивный метод квантования для обеспечения метрик от начала до конца по различным моделям. Операции в секунду (OPS) SageAttention2 превосходят FlashAttention2 и xformers примерно на 3 и 5 раз на RTX4090 соответственно. Всеобъемлющие эксперименты подтверждают, что наш подход приводит к незначительным потерям метрик от начала до конца на разнообразных моделях, включая те, что используются для обработки больших языковых моделей, генерации изображений и видео. Код доступен по адресу https://github.com/thu-ml/SageAttention.

2024-11-21adaptive quantization attention

BlueLM-V-3B: Алгоритм и системный дизайн для мультимодальных крупных языковых моделей на мобильных устройствах

Вот перевод текста на русский язык: --- Появление и растущая популярность мультимодальных крупных языковых моделей (MLLMs) обладают значительным потенциалом для улучшения различных аспектов повседневной жизни, от улучшения коммуникации до облегчения обучения и решения проблем. Мобильные телефоны, как неотъемлемые спутники повседневной жизни, представляют собой самую эффективную и доступную платформу для развертывания MLLMs, обеспечивая их бесшовную интеграцию в повседневные задачи. Однако развертывание MLLMs на мобильных телефонах представляет собой вызовы из-за ограничений в размере памяти и вычислительных возможностях, что затрудняет достижение плавной и реального времени обработки без обширной оптимизации. В данной статье мы представляем BlueLM-V-3B, подход к совместному проектированию алгоритма и системы, специально адаптированный для эффективного развертывания MLLMs на мобильных платформах. В частности, мы перерабатываем схему динамического разрешения, принятую в основных MLLMs, и реализуем системную оптимизацию для развертывания с учетом аппаратных особенностей для оптимизации вывода модели на мобильных телефонах. BlueLM-V-3B выделяется следующими ключевыми особенностями: (1) Малый размер: BlueLM-V-3B включает языковую модель с 2,7 миллиардами параметров и визуальный энкодер с 400 миллионами параметров. (2) Высокая скорость: BlueLM-V-3B достигает скорости генерации 24,4 токена/с на процессоре MediaTek Dimensity 9300 с квантованием весов LLM на 4 бита. (3) Высокая производительность: BlueLM-V-3B достигла наивысшего среднего балла 66,1 на бенчмарке OpenCompass среди моделей с параметрами ≤ 4B и превзошла серию моделей с гораздо большим размером параметров (например, MiniCPM-V-2.6, InternVL2-8B).

2024-11-19optimization model vision

BitNet a4.8: Введение в 4-битные активации для 1-битных LLM

Недавние исследования 1-битовых крупномасштабных языковых моделей (LLM), таких как BitNet b1.58, показывают перспективное направление для снижения стоимости вывода LLM, сохраняя при этом их производительность. В данной работе мы представляем BitNet a4.8, который позволяет использовать 4-битные активации для 1-битовых LLM. BitNet a4.8 использует гибридную стратегию квантования и разрежения для смягчения ошибок квантования, возникающих из-за выбросов в каналах. В частности, мы применяем 4-битные активации для входов в слои внимания и прямого распространения, в то время как промежуточные состояния разрежаются и затем подвергаются 8-битному квантованию. Обширные эксперименты показывают, что BitNet a4.8 достигает производительности, сравнимой с BitNet b1.58, при эквивалентных затратах на обучение, но при этом он быстрее работает на выводе, используя 4-битные (INT4/FP4) ядра. Кроме того, BitNet a4.8 активирует только 55% параметров и поддерживает 3-битный кэш KV, что дополнительно повышает эффективность развертывания и вывода крупномасштабных LLM.

2024-11-08quantization cache efficiency

SVDQuant: Поглощение выбросов с помощью низкоранговых компонентов для 4-битных диффузионных моделей

Модели диффузии доказали свою высокую эффективность в генерации изображений высокого качества. Однако, по мере увеличения размеров этих моделей, они требуют значительно больше памяти и страдают от более высокой задержки, что создает существенные проблемы для развертывания. В данной работе мы ставим цель ускорить модели диффузии, квантуя их веса и активации до 4 бит. На таком агрессивном уровне как веса, так и активации становятся очень чувствительными, где традиционные методы посттренинговой квантизации для больших языковых моделей, такие как сглаживание, становятся недостаточными. Чтобы преодолеть это ограничение, мы предлагаем SVDQuant, новый парадигм квантизации на 4 бита. В отличие от сглаживания, которое перераспределяет выбросы между весами и активациями, наш подход поглощает эти выбросы с помощью низкоранговой ветви. Сначала мы консолидируем выбросы, перемещая их с активаций на веса, затем используем высокоточную низкоранговую ветвь для приема весовых выбросов с помощью Сингулярного Разложения (SVD). Этот процесс облегчает квантизацию с обеих сторон. Однако, наивное запускание низкоранговой ветви независимо приводит к значительным накладным расходам из-за дополнительного перемещения данных активаций, что сводит на нет ускорение от квантизации. Для решения этой проблемы, мы разрабатываем совместно инференционный движок Nunchaku, который сливает ядра низкоранговой ветви в ядра низкобитовой ветви, чтобы избежать избыточного доступа к памяти. Он также может без проблем поддерживать готовые низкоранговые адаптеры (LoRAs) без необходимости переквантизации. Обширные эксперименты на SDXL, PixArt-Sigma и FLUX.1 подтверждают эффективность SVDQuant в сохранении качества изображения. Мы уменьшили использование памяти для моделей FLUX.1 объемом 12B в 3.5 раза, достигнув ускорения в 3.0 раза по сравнению с базовым квантизованным только весами на 4 бита на ноутбуке с 16GB GPU 4090, что открывает путь к более интерактивным приложениям на ПК. Наша библиотека квантизации и инференционный движок являются открытым исходным кодом.

2024-11-08inference deployment quantization

Торговля точностью и производительностью в квантовании LLM: Обзор и анализ

Несмотря на популярность квантизации крупных языковых моделей (LLM) для ускорения вывода, остается значительная неопределенность относительно компромиссов между точностью и производительностью, связанных с различными форматами квантизации. Мы представляем всестороннее эмпирическое исследование точности квантизированных моделей, оценивая популярные форматы квантизации (FP8, INT8, INT4) на академических тестах и реальных задачах для всей семейства моделей Llama-3.1. Кроме того, наше исследование анализирует различия в тексте, генерируемом квантизированными моделями, по сравнению с их не сжатыми аналогами. Помимо тестов, мы также представляем несколько улучшений в квантизации, которые позволили нам достичь результатов по восстановлению точности на уровне лучших в своем классе. Наше исследование, включающее более 500,000 индивидуальных оценок, дает несколько ключевых выводов: (1) квантизация весов и активаций в формате FP8 (W8A8-FP) является без потерь на всех масштабах моделей, (2) квантизация весов и активаций в формате INT8 (W8A8-INT), при правильной настройке, приводит к неожиданно низкому снижению точности на 1-3%, и (3) квантизация только весов в формате INT4 (W4A16-INT) является конкурентоспособной по сравнению с 8-битной целочисленной квантизацией весов и активаций. Для ответа на вопрос о «лучшем» формате для конкретной среды развертывания, мы проводим анализ производительности вывода с использованием популярной открытой платформы vLLM на различных архитектурах GPU. Мы обнаруживаем, что W4A16 предлагает наилучшую стоимостную эффективность для синхронных развертываний, а также для асинхронного развертывания на GPU среднего уровня. В то же время, форматы W8A8 превосходят в асинхронном развертывании с «непрерывной пакетной обработкой» средних и крупных моделей на высокопроизводительных GPU. Наши результаты предоставляют набор практических рекомендаций для развертывания квантизированных LLM в различных масштабах и требованиях к производительности.

2024-11-05performance deployment accuracy

BitStack: Эффективное управление памятью для сжатия больших языковых моделей

Крупные языковые модели (LLMs) произвели революцию во многих приложениях, однако их внедрение до сих пор сталкивается с ограничениями памяти на локальных устройствах. Хотя законы масштабирования улучшили возможности LLM, основное узкое место сместилось от возможностей к доступности, подчеркивая необходимость эффективного управления памятью. Традиционные методы сжатия, такие как квантование, часто требуют заранее определенных соотношений сжатия и отдельных процессов сжатия для каждого настройки, что усложняет развертывание в условиях переменной памяти. В данной статье мы представляем BitStack, новый подход к сжатию весов без обучения, который позволяет осуществлять компромиссы на уровне мегабайт между использованием памяти и производительностью модели. Используя декомпозицию весов, BitStack может динамически настраивать размер модели с минимальной передачей данных между оперативной памятью и устройствами хранения. Наш подход итеративно разлагает матрицы весов с учетом значимости каждого параметра, в результате чего получается приблизительно 1-битовый остаточный блок на параметр в каждой итерации декомпозиции. Эти блоки сортируются и складываются в хранилище как базовые единицы передачи, при этом разное их количество загружается в зависимости от текущей доступности памяти. Многочисленные эксперименты по широкому спектру задач показывают, что, несмотря на предоставление детального контроля над размером, BitStack последовательно соответствует или превосходит сильные базовые показатели квантования, особенно при экстремальных коэффициентах сжатия. Насколько нам известно, это первый метод на основе декомпозиции, который эффективно сокращает разрыв между практическими техниками сжатия, такими как квантование. Код доступен по адресу: https://github.com/xinghaow99/BitStack.

2024-11-01quantization compression decomposition

NeuZip: Эффективная компрессия нейронных сетей для обучения и вывода

Производительность нейронных сетей улучшается при использовании большего количества параметров. Однако размеры моделей ограничены доступной памятью устройства во время обучения и вывода. Хотя применение техник, таких как квантование, может облегчить это ограничение, они страдают от снижения производительности. В данной работе мы представляем NeuZip, новую схему сжатия весов, основанную на энтропии чисел с плавающей точкой в нейронных сетях. С помощью NeuZip мы можем достичь эффективного по памяти обучения и вывода без ущерба для производительности. В частности, мы значительно уменьшаем объем памяти, необходимый для обучения модели Llama-3 8B, с 31 ГБ до менее чем 16 ГБ, при этом динамика обучения остается полностью неизменной. Во время вывода наш метод может уменьшить использование памяти более чем вдвое, сохраняя при этом почти безошибочную производительность. Наш код доступен публично.

2024-11-01performance training compression