Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "compression"

Сжатая цепочка размышлений: эффективное рассуждение через плотные представления

Декодирование с цепочкой размышлений (CoT) позволяет языковым моделям улучшать эффективность рассуждений за счет высокой задержки генерации в декодировании. В недавних предложениях были изучены варианты токенов размышлений, термин, который мы вводим и который относится к специальным токенам, используемым во время вывода, чтобы позволить дополнительным вычислениям. Предыдущие работы рассматривали токены размышлений в виде последовательностей фиксированной длины, взятых из дискретного набора встраиваний. Здесь мы предлагаем Сжатую Цепочку Размышлений (CCoT) — структуру для генерации содержательных и непрерывных токенов размышлений переменной длины. Сгенерированные токены размышлений являются сжатыми представлениями явных цепочек рассуждений, и наш метод может быть применен к стандартным языковым моделям декодеров. В ходе экспериментов мы иллюстрируем, как CCoT позволяет дополнительные рассуждения над плотными содержательными представлениями, чтобы достичь соответствующих улучшений в точности. Более того, улучшения рассуждений могут быть адаптивно модифицированы по запросу путем контроля количества сгенерированных токенов размышлений.

WHISPER-GPT: Гибридная архитектура для генерации аудио

Мы предлагаем WHISPER-GPT: генеративную большую языковую модель (LLM) для речи и музыки, которая позволяет нам работать с непрерывными аудиорепрезентациями и дискретными токенами одновременно в рамках единой архитектуры. Наблюдается огромный рост генеративных моделей аудио, речи и музыки, которые используют дискретные аудиотокены, полученные из алгоритмов нейронного сжатия, например, ENCODEC. Однако одним из основных недостатков этого подхода является обработка длины контекста. Это увеличивается для высококачественной генеративной архитектуры, если необходимо учитывать все аудиосодержимое на различных частотах для прогнозирования следующего токена. Объединив непрерывную аудиорепрезентацию, такую как спектрограмма, и дискретные акустические токены, мы сохраняем лучшее из обоих миров: у нас есть вся необходимая информация из аудио в конкретный момент времени в одном токене, при этом позволяя LLM предсказывать будущий токен, что позволяет использовать выборку и другие преимущества, которые предоставляет дискретное пространство. Мы показываем, как наша архитектура улучшает перплексию и негативные логарифмические оценки правдоподобия для прогнозирования следующего токена по сравнению с токеном, основанной LLM для речи и музыки.

SepLLM: Ускорение больших языковых моделей за счет сжатия сегментов в разделители

Большие Языковые Модели (LLMs) показали исключительные результаты в различных задачах обработки естественного языка. Однако их значительные размеры создают серьезные проблемы, особенно в отношении вычислительных затрат и скорости вывода, из-за их квадратичной сложности. В этой работе мы идентифицировали ключевую закономерность: некоторые, на первый взгляд, бессмысленные специальные токены (т.е. разделители) непропорционально влияют на оценки внимания по сравнению с семантически значимыми токенами. Это наблюдение предполагает, что информация сегментов между этими токенами-разделителями может быть эффективно сжата в сами токены-разделители без значительных потерь информации. Руководствуясь этой идеей, мы представляем SepLLM, многофункциональную платформу, которая ускоряет вывод за счет компрессии этих сегментов и устранения избыточных токенов. Кроме того, мы реализуем эффективные ядра для ускорения обучения. Экспериментальные результаты в условиях без обучения, обучения с нуля и послевыучивания демонстрируют эффективность SepLLM. Примечательно, что, используя архитектуру Llama-3-8B, SepLLM достигает более чем 50% сокращения в кэше KV на контрольном устройстве GSM8K-CoT, сохраняя при этом сопоставимую производительность. Более того, в режимах потоковой передачи SepLLM эффективно обрабатывает последовательности до 4 миллионов токенов и более, одновременно поддерживая стабильные возможности языкового моделирования.

KV Cache-Centric Analysis of Long-Context Methods

Долгосрочные LLM (языковые модели) способствовали множеству downstream-приложений, но также вызвали существенные проблемы, связанные с вычислительной и памятью. Чтобы решить эти проблемы, были разработаны оптимизации для долгосрочного вывода, сосредоточенные вокруг кэша KV. Однако существующие тесты часто оценивают в режиме одного запроса, игнорируя полный жизненный цикл кэша KV в реальном использовании. Этот недостаток особенно критичен, поскольку повторное использование кэша KV стало широко распространено в рамках вывода LLM, таких как vLLM и SGLang, а также у поставщиков LLM, включая OpenAI, Microsoft, Google и Anthropic. Чтобы устранить этот пробел, мы представляем SCBench (SharedContextBench), комплексный тест для оценки методов долгосрочного контекста с точки зрения кэша KV: 1) генерация кэша KV, 2) сжатие кэша KV, 3) извлечение кэша KV, 4) загрузка кэша KV. В частности, SCBench использует тестовые примеры с общим контекстом, охватывающие 12 задач с двумя режимами общего контекста, покрывая четыре категории возможностей долгосрочного контекста: извлечение строк, семантическое извлечение, глобальная информация и многозадачность. С его помощью мы предоставляем обширный анализ решений долгосрочного контекста с акцентом на кэш KV по восьми категориям, включая Gated Linear RNNs, гибриды Mamba-Attention и эффективные методы, такие как разреженное внимание, сброс кэша KV, квантование, извлечение, загрузку и сжатие подсказок. Оценка проводится на 8 долгосрочных LLM. Наши результаты показывают, что методы с памятью менее O(n) страдают в сценариях многопроходного общения, в то время как разреженное кодирование с памятью O(n) и вычислениями предварительной заливки менее O(n^2) демонстрирует надежную работу. Динамическая разреженность создает более выразительные кэши KV, чем статические шаблоны, а разреженность на уровне слоев в гибридных архитектурах снижает использование памяти с высокой производительностью. Кроме того, мы выявляем проблемы с изменением распределения внимания в сценариях долгосрочной генерации. https://aka.ms/SCBench.

Обучение сжатия для сжатого обучения: концепции и реализация WaLLoC

Современные датчики производят все более богатые потоки данных высокого разрешения. Из-за ограничения ресурсов системы машинного обучения отказываются от подавляющего большинства этой информации путем снижения разрешения. Обучение в сжатом домене позволяет моделям работать с компактными латентными представлениями, что обеспечивает более высокое эффективное разрешение при том же бюджете. Однако существующие системы сжатия не идеальны для сжатого обучения. Кодирование линейных преобразований и системы сжатия, обученные от начала до конца, уменьшают битрейт, но не равномерно снижают размерность; таким образом, они незначительно увеличивают эффективность. Генеративные автокодировщики уменьшают размерность, но их антагонистические или перцептивные цели приводят к значительной потере информации. Чтобы решить эти проблемы, мы представляем WaLLoC (Wavelet Learned Lossy Compression), архитектуру нейронного кодека, которая сочетает кодирование линейных преобразований с нелинейными автокодировщиками, уменьшающими размерность. WaLLoC помещает поверхностный, асимметричный автокодировщик и энтропийную узкую часть между обратимым преобразованием вейвлет-пакета. По нескольким ключевым метрикам WaLLoC превосходит автокодировщики, используемые в современных моделях латентного диффузионного обучения. WaLLoC не требует перцептивных или антагонистических потерь для представления высокочастотных деталей, что обеспечивает совместимость с модальностями, выходящими за рамки RGB-изображений и стереозвука. Кодировщик WaLLoC почти полностью состоит из линейных операций, что делает его исключительно эффективным и подходящим для мобильных вычислений, дистанционного зондирования и обучения непосредственно на сжатых данных. Мы демонстрируем возможности WaLLoC для обучения в сжатом домене в рамках нескольких задач, включая классификацию изображений, колоризацию, понимание документов и разделение источников музыки. Наш код, эксперименты и предварительно обученные аудио и видеокодеки доступны по адресу https://ut-sysml.org/walloc.

NVILA: Эффективные визуально-языковые модели

Визуальные языковые модели (VLM) добились значительного прогресса в точности в последние годы. Однако их эффективность получила гораздо меньше внимания. Эта статья представляет NVILA, семью открытых VLM, разработанных для оптимизации как эффективности, так и точности. Строя на основе VILA, мы улучшаем архитектуру модели, сначала увеличивая пространственные и временные разрешения, а затем сжимая визуальные токены. Этот подход «масштабировать затем сжимать» позволяет NVILA эффективно обрабатывать изображения высокого разрешения и длинные видео. Мы также проводим систематическое расследование, чтобы повысить эффективность NVILA на протяжении всего его жизненного цикла, от обучения и тонкой настройки до развертывания. NVILA соответствует или превосходит точность многих ведущих открытых и проприетарных VLM на широком диапазоне контрольных тестов изображений и видео. В то же время он снижает затраты на обучение в 4.5 раза, использование памяти на тонкой настройке в 3.4 раза, задержку предварительного заполнения в 1.6-2.2 раза и задержку декодирования в 1.2-2.8 раза. Мы скоро сделаем наш код и модели доступными, чтобы облегчить воспроизводимость.

Масштабирование токенизаторов изображений с помощью групповой сферической квантизации

Токенизаторы зрения приобрели большую популярность благодаря своей масштабируемости и компактности; предыдущие работы зависели от устаревших гиперпараметров на основе GAN, предвзятых сравнений и недостатка комплексного анализа масштабируемого поведения. Чтобы решить эти проблемы, мы представляем Групповую Сферическую Квантовку (GSQ), которая включает инициализацию шарового кодовогоbook и регуляризацию поиска, чтобы ограничить латентный кодовыйbook на сферической поверхности. Наш эмпирический анализ стратегий обучения токенизаторов изображений демонстрирует, что GSQ-GAN достигает превосходного качества реконструкции по сравнению с современными методами при меньшем количестве итераций обучения, обеспечивая надежную основу для исследований масштабирования. Основываясь на этом, мы систематически изучаем масштабируемое поведение GSQ, в частности в отношении латентной размерности, размера кодовогоbook и коэффициентов сжатия, а также их влияние на производительность модели. Наши выводы показывают различные поведения на высоких и низких уровнях пространственного сжатия, подчеркивая проблемы в представлении многомерных латентных пространств. Мы показываем, что GSQ может реконструировать многомерные латентные пространства в компактные, низкоразмерные пространства, что позволяет эффективно масштабироваться с улучшенным качеством. В результате, GSQ-GAN достигает 16-кратного уменьшения сжатия с реконструкцией FID (rFID) 0.50.

Видео Гауссово Разбрызгивание (VeGaS): Новый Подход к Обработке Видео

Неявные нейронные представления (INRs) используют нейронные сети для аппроксимации дискретных данных в виде непрерывных функций. В контексте видеоданных такие модели могут быть использованы для преобразования координат расположения пикселей вместе со временем (или индексами) появления кадра в значения RGB цветов. Хотя INRs способствуют эффективному сжатию, они не подходят для редактирования. Одним из возможных решений является использование модели на основе 3D Гауссовского распыления (3DGS), такой как Видео Гауссовое Представление (VGR), которое способно кодировать видео в виде множества 3D Гауссиан и применяться для множества операций обработки видео, включая редактирование. Тем не менее, в этом случае возможности изменения ограничены небольшим набором базовых преобразований. Для решения этой проблемы мы представляем модель Видео Гауссовского Распыления (VeGaS), которая позволяет осуществлять реалистичные изменения видеоданных. Для создания VeGaS мы предлагаем новую семью распределений Сложенных-Гауссиан, разработанных для захвата нелинейной динамики в видеопотоке и моделирования последовательных кадров с помощью 2D Гауссиан, полученных как соответствующие условные распределения. Наши эксперименты показывают, что VeGaS превосходит современные решения в задачах восстановления кадров и позволяет реалистично модифицировать видеоданные. Код доступен по ссылке: https://github.com/gmum/VeGaS.

Введение в WaLa: Волновая Латентная Диффузия для 3D Генеративных Моделей

Большие трёхмерные генеративные модели требуют значительных вычислительных ресурсов, но часто не справляются с захватом мелких деталей и сложных геометрий при высоких разрешениях. Мы считаем, что эта ограниченность обусловлена неэффективностью текущих представлений, которые не обладают необходимой компактностью для эффективного моделирования генеративных моделей. Чтобы решить эту проблему, мы представляем новый подход под названием Вейвлетное Латентное Диффузионное Моделирование (WaLa), который кодирует 3D формы в компактные латентные представления на основе вейвлетов. В частности, мы сжимаем поле подписанных расстояний размером 256^3 в латентную сетку размером 12^3 умноженное на 4, достигая впечатляющего коэффициента сжатия 2427 с минимальной потерей детализации. Этот высокий уровень сжатия позволяет нашему методу эффективно обучать крупномасштабные генеративные сети без увеличения времени вывода. Наши модели, как условные, так и безусловные, содержат примерно миллиард параметров и успешно генерируют высококачественные 3D формы с разрешением 256^3. Более того, WaLa обеспечивает быстрое выведение результатов, создавая формы за два-четыре секунды в зависимости от условий, несмотря на масштаб модели. Мы демонстрируем лучшие в своем классе результаты на нескольких наборах данных, с значительными улучшениями в качестве, разнообразии и вычислительной эффективности генерации. Мы открываем исходный код и, насколько нам известно, выпускаем крупнейшие предобученные 3D генеративные модели для различных модальностей.

Адаптивная Длина Токенизации Изображений через Рекуррентное Выделение

Текущие системы компьютерного зрения обычно присваивают изображениям представления фиксированной длины, независимо от содержания информации. Это контрастирует с человеческим интеллектом — и даже с большими языковыми моделями — которые распределяют различные объемы представлений в зависимости от энтропии, контекста и знакомства. Вдохновленные этим, мы предлагаем подход к обучению представлений токенов переменной длины для двумерных изображений. Наша архитектура кодировщика-декодера рекурсивно обрабатывает токены двумерных изображений, превращая их в одномерные скрытые токены в ходе нескольких итераций рекуррентных проходов. Каждая итерация уточняет двумерные токены, обновляет существующие одномерные скрытые токены и адаптивно увеличивает представительную емкость, добавляя новые токены. Это позволяет сжимать изображения в переменное количество токенов, от 32 до 256. Мы проверяем наш токенизатор, используя метрики потери восстановления и FID, демонстрируя, что количество токенов соответствует энтропии изображения, знакомству и требованиям последующих задач. Рекуррентная обработка токенов с увеличением представительной емкости на каждой итерации показывает признаки специализации токенов, открывая потенциал для обнаружения объектов или частей.

Оптимальные Визуальные Языковые Модели (VLM): Ключ к Эффективности

Модели языка и видения (VLMs) продемонстрировали высокую эффективность в различных задачах понимания и анализа визуальной информации. Однако их внедрение в реальном мире часто ограничено высокой задержкой при выводе из-за значительных вычислительных ресурсов, необходимых для обработки большого количества входных токенов (преимущественно из изображений) языковой моделью (LLM). Для снижения затрат на вывод можно либо уменьшить размер LLM, либо уменьшить количество входных токенов изображения, причем последнее стало фокусом многих недавних исследований по сжатию токенов. Однако неясно, каков оптимальный баланс, поскольку оба фактора напрямую влияют на производительность VLM. Мы впервые характеризуем этот оптимальный баланс между количеством визуальных токенов и параметрами LLM, устанавливая законы масштабирования, которые отражают изменения производительности с учетом этих двух факторов. Наши результаты выявляют неожиданную тенденцию: для задач визуального рассуждения оптимальное поведение при выводе в VLMs, то есть минимальная ошибка при любом фиксированном вычислительном бюджете, достигается при использовании самой большой LLM, которая вписывается в бюджет вывода, при этом минимизируя количество визуальных токенов, часто до одного токена. Хотя литература по сокращению токенов в основном сосредоточена на поддержании производительности базовой модели путем умеренного сокращения количества токенов (например, в 5-10 раз), наши результаты указывают на то, что оптимальный режим вывода с точки зрения вычислительных ресурсов требует работы при еще более высоких коэффициентах сжатия токенов. Основываясь на этих выводах, мы делаем первые шаги к разработке подходов, адаптированных для условий высокой компрессии токенов. Код доступен по адресу https://github.com/locuslab/llava-token-compression.

Hunyuan-Large: Продвижение в области Моделей с Смесью Экспертов

В данной статье мы представляем модель Hunyuan-Large, которая на данный момент является крупнейшей открытой моделью, основанной на Transformer, с использованием технологии смешения экспертов. Она включает в себя 389 миллиардов параметров и 52 миллиарда параметров активации, способную обрабатывать до 256 тысяч токенов. Мы провели тщательную оценку превосходной производительности Hunyuan-Large по различным тестам, включая понимание и генерацию языка, логическое рассуждение, решение математических задач, программирование, задачи с длинным контекстом и агрегированные задачи, где она превосходит модель LLama3.1-70B и показывает сопоставимую производительность с значительно большей моделью LLama3.1-405B. Ключевые особенности Hunyuan-Large включают использование больших объемов синтетических данных, превышающих данные в предыдущих исследованиях, стратегию маршрутизации смешанных экспертов, технику сжатия кэша ключ-значение и стратегию скорости обучения, специфичную для экспертов. Кроме того, мы исследовали законы масштабирования и графики скорости обучения для моделей со смешением экспертов, предоставляя ценные инсайты и руководства для будущего развития и оптимизации моделей. Код и контрольные точки модели Hunyuan-Large выпущены для содействия будущим инновациям и применениям. Коды: https://github.com/Tencent/Hunyuan-Large Модели: https://huggingface.co/tencent/Tencent-Hunyuan-Large

Понимаем видео последовательности с помощью Prompt-guided Pooling LLaVA

Прошедший год стал свидетелем значительного прогресса в развитии видео-ориентированных крупных языковых моделей. Однако, проблема разработки единой модели для понимания как коротких, так и длинных видео, остается нерешенной. Большинство существующих видео LLM не могут обрабатывать видео продолжительностью в несколько часов, в то время как методы, специально предназначенные для длинных видео, оказываются неэффективными для более коротких видео и изображений. В этой статье мы выявляем ключевую проблему - избыточное содержание в видео. Для решения этой проблемы мы предлагаем новую стратегию объединения, которая одновременно обеспечивает сжатие токенов и агрегацию визуальных особенностей с учетом инструкций. Наша модель называется Prompt-guided Pooling LLaVA, или сокращенно PPLLaVA. Конкретно, PPLLaVA состоит из трех основных компонентов: выравнивание визуальных подсказок на основе CLIP, которое извлекает визуальную информацию, соответствующую инструкциям пользователя, объединение с подсказками, которое сжимает визуальную последовательность до произвольных масштабов с использованием сверточного стиля объединения, и расширение контекста клипа, предназначенное для длинных подсказок, часто встречающихся в визуальных диалогах. Кроме того, наша база кода также интегрирует наиболее продвинутые методы оптимизации прямого предпочтения видео (DPO) и обучения с чередованием визуальных данных. Обширные эксперименты подтвердили производительность нашей модели. При превосходной пропускной способности и только 1024 визуальных контекстов, PPLLaVA достигает лучших результатов на эталонных изображениях как видео LLM, в то же время показывая лучшие в своем классе результаты на различных видео-эталонах, превосходя в задачах от генерации подписей до вопросов с множественным выбором и обрабатывая видео от нескольких секунд до нескольких часов. Коды доступны по адресу https://github.com/farewellthree/PPLLaVA.

NeuZip: Эффективная компрессия нейронных сетей для обучения и вывода

Производительность нейронных сетей улучшается при использовании большего количества параметров. Однако размеры моделей ограничены доступной памятью устройства во время обучения и вывода. Хотя применение техник, таких как квантование, может облегчить это ограничение, они страдают от снижения производительности. В данной работе мы представляем NeuZip, новую схему сжатия весов, основанную на энтропии чисел с плавающей точкой в нейронных сетях. С помощью NeuZip мы можем достичь эффективного по памяти обучения и вывода без ущерба для производительности. В частности, мы значительно уменьшаем объем памяти, необходимый для обучения модели Llama-3 8B, с 31 ГБ до менее чем 16 ГБ, при этом динамика обучения остается полностью неизменной. Во время вывода наш метод может уменьшить использование памяти более чем вдвое, сохраняя при этом почти безошибочную производительность. Наш код доступен публично.

Минимальное Энтропийное Сопряжение с Боттлнечком (MEC-B): Новый Подход к Потерям в Сжатии

В данной статье исследуется новая структура сжатия с потерями, работающая при логарифмических потерях, разработанная для обработки ситуаций, когда распределение восстановления отличается от исходного распределения. Эта структура особенно актуальна для приложений, требующих совместного сжатия и извлечения данных, а также в сценариях, связанных с изменениями распределения из-за обработки. Мы показываем, что предложенная формулировка расширяет классическую структуру минимальной энтропии связи за счет интеграции "узкого места", что позволяет контролировать степень стохастичности в связи. Мы исследуем разложение Минимальной Энтропии Связи с "узким местом" (MEC-B) на две отдельные задачи оптимизации: Максимизация Информации с Ограниченной Энтропией (EBIM) для кодера и Минимальная Энтропия Связи (MEC) для декодера. В ходе обширного анализа мы предлагаем жадный алгоритм для EBIM с гарантированными характеристиками производительности и описываем оптимальное решение вблизи функциональных отображений, что дает значительные теоретические инсайты в структурную сложность этой задачи. Более того, мы демонстрируем практическое применение MEC-B через эксперименты в играх с марковским кодированием (MCGs) при ограничениях на скорость передачи. Эти игры симулируют сценарий общения в рамках марковского процесса принятия решений, где агент должен передать сжатое сообщение от отправителя получателю через свои действия. Наши эксперименты выявляют компромиссы между вознаграждениями MDP и точностью получателя на различных скоростях сжатия, демонстрируя эффективность нашего метода по сравнению с традиционными базовыми методами сжатия.

BitStack: Эффективное управление памятью для сжатия больших языковых моделей

Крупные языковые модели (LLMs) произвели революцию во многих приложениях, однако их внедрение до сих пор сталкивается с ограничениями памяти на локальных устройствах. Хотя законы масштабирования улучшили возможности LLM, основное узкое место сместилось от возможностей к доступности, подчеркивая необходимость эффективного управления памятью. Традиционные методы сжатия, такие как квантование, часто требуют заранее определенных соотношений сжатия и отдельных процессов сжатия для каждого настройки, что усложняет развертывание в условиях переменной памяти. В данной статье мы представляем BitStack, новый подход к сжатию весов без обучения, который позволяет осуществлять компромиссы на уровне мегабайт между использованием памяти и производительностью модели. Используя декомпозицию весов, BitStack может динамически настраивать размер модели с минимальной передачей данных между оперативной памятью и устройствами хранения. Наш подход итеративно разлагает матрицы весов с учетом значимости каждого параметра, в результате чего получается приблизительно 1-битовый остаточный блок на параметр в каждой итерации декомпозиции. Эти блоки сортируются и складываются в хранилище как базовые единицы передачи, при этом разное их количество загружается в зависимости от текущей доступности памяти. Многочисленные эксперименты по широкому спектру задач показывают, что, несмотря на предоставление детального контроля над размером, BitStack последовательно соответствует или превосходит сильные базовые показатели квантования, особенно при экстремальных коэффициентах сжатия. Насколько нам известно, это первый метод на основе декомпозиции, который эффективно сокращает разрыв между практическими техниками сжатия, такими как квантование. Код доступен по адресу: https://github.com/xinghaow99/BitStack.