Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "sparsity"

KV Cache-Centric Analysis of Long-Context Methods

Долгосрочные LLM (языковые модели) способствовали множеству downstream-приложений, но также вызвали существенные проблемы, связанные с вычислительной и памятью. Чтобы решить эти проблемы, были разработаны оптимизации для долгосрочного вывода, сосредоточенные вокруг кэша KV. Однако существующие тесты часто оценивают в режиме одного запроса, игнорируя полный жизненный цикл кэша KV в реальном использовании. Этот недостаток особенно критичен, поскольку повторное использование кэша KV стало широко распространено в рамках вывода LLM, таких как vLLM и SGLang, а также у поставщиков LLM, включая OpenAI, Microsoft, Google и Anthropic. Чтобы устранить этот пробел, мы представляем SCBench (SharedContextBench), комплексный тест для оценки методов долгосрочного контекста с точки зрения кэша KV: 1) генерация кэша KV, 2) сжатие кэша KV, 3) извлечение кэша KV, 4) загрузка кэша KV. В частности, SCBench использует тестовые примеры с общим контекстом, охватывающие 12 задач с двумя режимами общего контекста, покрывая четыре категории возможностей долгосрочного контекста: извлечение строк, семантическое извлечение, глобальная информация и многозадачность. С его помощью мы предоставляем обширный анализ решений долгосрочного контекста с акцентом на кэш KV по восьми категориям, включая Gated Linear RNNs, гибриды Mamba-Attention и эффективные методы, такие как разреженное внимание, сброс кэша KV, квантование, извлечение, загрузку и сжатие подсказок. Оценка проводится на 8 долгосрочных LLM. Наши результаты показывают, что методы с памятью менее O(n) страдают в сценариях многопроходного общения, в то время как разреженное кодирование с памятью O(n) и вычислениями предварительной заливки менее O(n^2) демонстрирует надежную работу. Динамическая разреженность создает более выразительные кэши KV, чем статические шаблоны, а разреженность на уровне слоев в гибридных архитектурах снижает использование памяти с высокой производительностью. Кроме того, мы выявляем проблемы с изменением распределения внимания в сценариях долгосрочной генерации. https://aka.ms/SCBench.

Эффективное использование памяти при обучении больших языковых моделей

По мере того как языковые модели становятся всё больше, растут и их словари. Это привело к непропорциональному увеличению объема памяти, используемого LLMs во время обучения, особенно в одном слое: при вычислении кросс-энтропии в функции потерь. Кросс-энтропия создает матрицу логитов с элементами для каждой пары входных токенов и элементов словаря и, для небольших моделей, потребляет на порядок больше памяти, чем остальная часть LLM вместе взятая. Мы предлагаем метод Cut Cross-Entropy (CCE), который вычисляет потери кросс-энтропии без материализации логитов для всех токенов в глобальной памяти. Вместо этого, CCE вычисляет логит только для правильного токена и оценивает log-sum-exp по всем логитам на лету. Мы реализовали специальное ядро, которое выполняет матричные умножения и редукцию log-sum-exp по словарю во флэш-памяти, делая потребление глобальной памяти для вычислений кросс-энтропии незначительным. Это имеет драматический эффект. Например, в случае модели Gemma 2 (2B), CCE снижает объем памяти, необходимый для вычисления потерь, с 24 ГБ до 1 МБ, а общее потребление памяти при обучении головы классификатора - с 28 ГБ до 1 ГБ. Для улучшения пропускной способности CCE мы используем врожденную разреженность softmax и предлагаем пропускать элементы вычисления градиента, которые имеют пренебрежимо малый вклад в градиент (то есть ниже численной точности). Эксперименты показывают, что драматическое сокращение потребления памяти достигается без ущерба для скорости обучения или сходимости.

Выравнивание крупных языковых моделей: Инновационный подход с использованием ограничений на уровне признаков

Согласование больших языковых моделей (LLMs) с человеческими предпочтениями остается ключевым вызовом. Хотя посттренировочные техники, такие как Обучение с подкреплением от человеческой обратной связи (RLHF) и Оптимизация прямых предпочтений (DPO), достигли заметного успеха, они часто вводят вычислительные неэффективности и нестабильность обучения. В данной статье мы предлагаем Оптимизацию предпочтений на уровне признаков (FPO), новый метод, разработанный для упрощения процесса согласования при сохранении стабильности. FPO использует предобученные Разреженные Автокодировщики (SAEs) и вводит ограничения на уровне признаков, что позволяет проводить эффективное, вынужденное разрежением согласование. Наш подход отличается эффективностью за счет использования разреженных признаков, активированных в хорошо обученном разреженном автокодировщике, и качества последовательного дивергенции Кульбака-Лейблера с использованием оффлайн-референса на уровне признаков. Экспериментальные результаты на эталонных наборах данных показывают, что FPO достигает абсолютного улучшения на 5.08% в проценте побед при значительно более низких вычислительных затратах по сравнению с лучшими на сегодняшний день базовыми моделями, что делает его перспективным решением для эффективного и контролируемого согласования LLM.

Расшифровка тёмной материи: Специализированные разреженные автоэнкодеры для интерпретации редких концепций в фундаментальных моделях

Понимание и смягчение потенциальных рисков, связанных с моделями фундаментального уровня (FMs), зависит от разработки эффективных методов интерпретации. Разреженные автокодировщики (SAEs) выделяются как перспективный инструмент для разделения представлений FM, однако они испытывают трудности с захватом редких, но критически важных концепций в данных. Мы представляем Специализированные разреженные автокодировщики (SSAEs), разработанные для выявления этих ускользающих темных материйных признаков путем фокусировки на конкретных поддоменах. Мы предлагаем практический рецепт для обучения SSAEs, демонстрирующий эффективность плотного извлечения для выбора данных и преимущества Наклонной эмпирической минимизации риска в качестве цели обучения для улучшения воспоминания концепций. Наше оценка SSAEs по стандартным метрикам, таким как перплексия вниз по течению и L_0 разреженность, показывает, что они эффективно захватывают концепции хвостовых поддоменов, превосходя возможности общих SAEs. Мы демонстрируем практическую полезность SSAEs на примере исследования на наборе данных Bias in Bios, где SSAEs достигают увеличения точности классификации на 12.5% в худшей группе при применении для устранения ложной гендерной информации. SSAEs предоставляют мощный новый инструмент для проникновения во внутренние механизмы работы FMs в поддоменах.

Законы разреженности активации: К большим языковым моделям с большей разреженностью активации

Спарсность активации указывает на наличие значительного количества слабо вносящих вклад элементов в выходах активации, которые можно устранить, что полезно для многих важных приложений, связанных с крупными языковыми моделями (LLMs). Хотя поощрение большей спарсности активации в LLMs заслуживает глубоких исследований, существующие работы не обладают всесторонними и количественными исследованиями корреляции между спарсностью активации и потенциально влиятельными факторами. В данной статье мы представляем всестороннее исследование количественных масштабируемых свойств и влиятельных факторов спарсности активации в декодер-ориентированных трансформерных LLMs. В частности, мы предлагаем метрику спарсности активации PPL-p%, которая является точной и учитывающей производительность, и применима к любой функции активации. Проведя обширные эксперименты, мы обнаружили несколько важных явлений. Во-первых, различные функции активации показывают сопоставимую производительность, но противоположные тенденции спарсности во время обучения. Коэффициент активации (т.е., 1 минус коэффициент спарсности) эволюционирует как сходящаяся возрастающая степенная зависимость и убывающая логарифмическая степенная зависимость от объема обучающих данных для LLMs с активацией SiLU и ReLU соответственно. Это показывает, что ReLU более эффективен как функция активации по сравнению с SiLU и может использовать больше данных для улучшения спарсности активации. Во-вторых, коэффициент активации линейно увеличивается с отношением ширины к глубине до определенной точки узкого места, что указывает на потенциальное преимущество более глубокой архитектуры при фиксированном масштабе параметров. Наконец, при схожих отношениях ширины и глубины мы удивительно обнаружили, что предельное значение спарсности активации слабо зависит от масштаба параметров, т.е. активационные паттерны в LLM не чувствительны к масштабу параметров. Эти эмпирические законы для LLMs с большей спарсностью активации имеют важные последствия для повышения эффективности и интерпретируемости LLMs.