Свежая выжимка ml и AI статей - каждый день
Диффузионные модели, известные своей способностью генерировать высококачественные изображения, сталкиваются с серьёзными проблемами при развертывании из-за больших объёмов памяти и высокой задержки, особенно когда модели становятся всё более масштабными. В этом контексте исследователи из MIT, NVIDIA, CMU, Princeton, UC Berkeley, SJTU и Pika Labs разработали инновационный метод квантования под названием SVDQuant, который позволяет сократить использование памяти и ускорить вывод результатов моделей, сохраняя при этом высокое качество изображений.
Квантование — это процесс уменьшения точности чисел, используемых в моделях, чтобы уменьшить объём данных и ускорить вычисления. SVDQuant фокусируется на квантовании как весов, так и активаций модели до 4 битов, что является довольно агрессивным подходом, учитывая чувствительность диффузионных моделей к точности данных.
В процессе квантования часто возникают выбросы (аномальные значения), которые могут значительно ухудшить качество генерации изображений. Традиционные методы пост-тренировочного квантования, такие как сглаживание, не всегда эффективны, особенно когда и веса, и активации квантуются до 4 битов.
SVDQuant предлагает новый подход к обработке выбросов:
Этот метод позволяет снизить влияние выбросов, так как низкоранговые компоненты, содержащие большую часть информации, сохраняются в более высокой точности, в то время как остальная часть данных может быть квантована агрессивнее.
Для того чтобы новый метод не привёл к увеличению времени вывода из-за дополнительных вычислений, был разработан специализированный инференционный движок Nunchaku. Он объединяет вычисления низкоранговых и низкобитных ветвей, минимизируя избыточный доступ к памяти и обеспечивая значительное ускорение.
SVDQuant представляет собой значительный шаг вперёд в области квантования диффузионных моделей, предлагая эффективное решение для уменьшения использования памяти и ускорения вывода без значительных потерь в качестве. Этот метод не только облегчает развертывание больших моделей на ограниченных по ресурсам устройствах, но и открывает новые возможности для интерактивных приложений, требующих быстрой обработки и высококачественной визуализации.
SVDQuant и инференционный движок Nunchaku доступны в открытом доступе, что позволяет исследователям и разработчикам использовать и адаптировать эти технологии для своих нужд.