Ай Дайджест - категория scaling

Понимание видео в больших мультимодальных моделях: Исследование Apollo

Несмотря на быструю интеграцию возможностей видеопонимания в большие мультимодальные модели (LMM), механизмы, лежащие в основе их видеоанализа, остаются плохо понятыми. В результате многие проектные решения в этой области принимаются без надлежащего обоснования или анализа. Высокая вычислительная стоимость обучения и оценки таких моделей, в сочетании с ограниченными открытыми исследованиями, препятствует развитию видео-LMM. Для решения этой проблемы мы представляем всестороннее исследование, которое поможет выявить, что эффективно движет видеопониманием в LMM. Мы начинаем с критического анализа основных факторов, способствующих высоким вычислительным требованиям, связанным с исследованием видео-LMM, и обнаруживаем закон масштабирования согласованности, согласно которому проектные и учебные решения, принятые на меньших моделях и наборах данных (до критического размера), эффективно переносятся на большие модели. Используя эти идеи, мы исследовали множество специфических аспектов видео-LMM, включая выборку видео, архитектуры, состав данных, графики обучения и многое другое. Например, мы показали, что выборка fps во время обучения значительно предпочтительнее равномерной выборки кадров и какие кодеры изображения лучше всего подходят для представления видео. Основанные на этих выводах, мы представляем Apollo, семейство современных LMM, которые демонстрируют превосходные результаты на разных размерах моделей. Наши модели могут эффективно воспринимать часовые видео, причем Apollo-3B превосходит большинство существующих моделей 7B с впечатляющими 55.1 на LongVideoBench. Apollo-7B демонстрирует состояние искусства по сравнению с LMM 7B с 70.9 на MLVU и 63.3 на Video-MME.

2024-12-16sampling training scaling

Плотность ёмкости: Новый подход к оценке больших языковых моделей

Большие языковые модели (LLM) стали важным этапом в области искусственного интеллекта, и их производительность может увеличиваться с ростом размера модели. Однако это масштабирование приносит большие проблемы для эффективности обучения и выводов, особенно для развертывания LLM в условиях ограниченных ресурсов, и тенденция к масштабированию становится все более неустойчивой. Эта статья вводит концепцию "плотности емкости" как новую метрику для оценки качества LLM на различных масштабах и описывает тенденции LLM с точки зрения как эффективности, так и результативности. Для расчета плотности емкости данной целевой LLM мы сначала вводим набор эталонных моделей и разрабатываем закон масштабирования, чтобы предсказать производительность этих эталонных моделей в зависимости от их размера параметров. Затем мы определяем эффективный размер параметров целевой LLM как размер параметров, необходимый эталонной модели для достижения эквивалентной производительности, и формализуем плотность емкости как отношение эффективного размера параметров к фактическому размеру параметров целевой LLM. Плотность емкости предоставляет унифицированную структуру для оценки как эффективности, так и результативности моделей. Наш дальнейший анализ недавно открытых базовых LLM показывает эмпирический закон (закон уплотнения), согласно которому плотность емкости LLM экспоненциально растет с течением времени. Более конкретно, используя некоторые широко используемые эталоны для оценки, плотность емкости LLM удваивается примерно каждые три месяца. Этот закон предоставляет новые перспективы для руководства будущим развитием LLM, подчеркивая важность повышения плотности емкости для достижения оптимальных результатов с минимальными вычислительными затратами.

2024-12-06capacity scaling density

Infinity: Масштабирование битового автогрегативного моделирования для синтеза изображений высокого разрешения

Мы представляем Infinity, битовый визуальный авторегрессионный моделирование, способное генерировать изображения высокого разрешения и фотореалистичности, следуя языковым инструкциям. Infinity переопределяет визуальную авторегрессионную модель в рамках предсказания битовых токенов с бесконечным словарным токенизатором и классификатором, а также механизмом самокоррекции, что значительно улучшает способность генерации и детали. Теоретически увеличивая размер словаря токенизатора до бесконечности и одновременно увеличивая размер трансформера, наш метод значительно раскрывает мощные возможности масштабирования по сравнению с обычным VAR. Infinity устанавливает новый рекорд для авторегрессионных моделей текстов в изображения, превосходя модели диффузии высшего уровня, такие как SD3-Medium и SDXL. Примечательно, что Infinity превосходит SD3-Medium, улучшая оценку GenEval с 0,62 до 0,73 и оценку ImageReward с 0,87 до 0,96, достигая коэффициента победы в 66%. Без дополнительной оптимизации Infinity генерирует изображение высокого качества 1024x1024 за 0,8 секунды, что делает его в 2,6 раз быстрее SD3-Medium и устанавливает его как самую быструю модель текстов в изображения. Модели и коды будут опубликованы для содействия дальнейшему исследованию Infinity для визуальной генерации и единого моделирования токенизаторов.

2024-12-06generation scaling tokenizer

Установление законов масштабирования задач через эффективные модели лестницы

Мы разрабатываем законы масштабирования задач и модели «лестницы», чтобы предсказать индивидуальные показатели работы предварительно обученных языковых моделей (LMs) в условиях переобучения. Стандартные степенные законы для потерь языкового моделирования не могут точно смоделировать производительность задачи. Поэтому мы используем двухэтапный подход к предсказанию: сначала используем размер модели и данных для предсказания потерь, специфичных для задачи, а затем используем эти потери задачи для предсказания производительности задачи. Мы обучаем набор маломасштабных моделей «лестниц», собираем точки данных для подгонки параметризованных функций двух этапов предсказания и делаем предсказания для двух целевых моделей: модели на 7 миллиардов параметров, обученной на 4 триллионах токенов, и модели на 13 миллиардов параметров, обученной на 5 триллионах токенов. Обучение моделей лестницы стоит всего 1% затрат вычислений, использованных для целевых моделей. На четырех задачах с множественным выбором, написанных в формате ранжированной классификации, мы можем предсказать точность обеих целевых моделей с абсолютной ошибкой в пределах 2 пунктов. У нас более высокая ошибка предсказания по четырем другим задачам (средняя абсолютная ошибка 6,9), и мы находим, что это часто задачи с более высокой дисперсией метрических характеристик. Мы также обнаруживаем, что использование меньшего количества вычислений для обучения меньшего количества моделей лестницы, как правило, ухудшает предсказания. Наконец, мы эмпирически показываем, что наши проектные решения и двухэтапный подход приводят к превосходной производительности в установлении законов масштабирования.

2024-12-06loss performance scaling

Простая и доказуемая законопроектная модель для вычислений в тестовом времени больших языковых моделей

Мы предлагаем общий двухступенчатый алгоритм, который имеет доказанное закон масштабирования для вычислений в тестовом режиме больших языковых моделей (LLM). Учитывая входную задачу, предложенный алгоритм сначала генерирует N кандидатных решений, а затем выбирает лучшее через многократный нокаут-турнир, в котором каждую пару кандидатов сравнивают K раз, и только победители переходят в следующий раунд. В минималистской реализации оба этапа могут быть выполнены с помощью только черного ящика LLM и ничем другим (например, без внешнего проверяющего или модели вознаграждения), и для решения входной задачи требуется всего N*(K + 1) высокопараллелизуемых вызовов LLM. Предполагая, что сгенерированное кандидатное решение верно с вероятностью p_{gen} > 0 и что сравнение между парой правильных и неправильных решений определяет правильного победителя с вероятностью p_{comp} > 0,5 (т.е. лучше, чем случайное угадывание), мы теоретически доказываем, что вероятность неудачи предложенного алгоритма экспоненциально стремится к нулю по отношению к N и K: $P(итоговый вывод неверен) ≤ (1 - p_{gen})^N + ext{ceil}( ext{log}_2 N) e^{-2 K (p_{comp} - 0.5)^2}$. Наши эмпирические результаты с трудным эталоном MMLU-Pro подтверждают технические предположения, а также эффективность предложенного алгоритма и улучшения от масштабирования его вычислений в тестовом режиме.

2024-12-03probability parallelization scaling

VLsI: Вербализация слоев для взаимодействия в больших языковых моделях

Недавний всплеск высококачественных образцов визуальной настройки инструкций от закрытых моделей изображения-языка (VLM), таких как GPT-4V, ускорил выпуск открытых VLM различных размеров моделей. Однако масштабирование VLM для улучшения производительности с использованием более крупных моделей приносит значительные вычислительные проблемы, особенно для развертывания на устройствах с ограниченными ресурсами, таких как мобильные платформы и роботы. Чтобы решить эту проблему, мы предлагаем VLsI: Вербализированные Слои-в-Взаимодействия, новую семью VLM размером 2B и 7B, которая приоритизирует эффективность без ущерба для точности. VLsI использует уникальный процесс дистилляции по слоям, вводя промежуточные "вербализаторы", которые сопоставляют особенности каждого слоя с пространством естественного языка, позволяя меньшим VLM гибко соответствовать процессам вывода больших VLM. Этот подход смягчает нестабильность обучения, часто возникающую при имитации вывода, и выходит за рамки обычной настройки последнего слоя, выравнивая прогрессию по слоям меньших VLM с прогрессией больших. Мы валидируем VLsI на десяти сложных эталонах визуального языка, достигая заметных приростов производительности (11.0% для 2B и 17.4% для 7B) по сравнению с GPT-4V без необходимости масштабирования модели, слияния или архитектурных изменений.

2024-12-03scaling efficiency benchmarking

Квантование с низкой битностью благоприятствует недообученным языковым моделям: законы масштабирования для квантованных языковых моделей с 100 триллионами токенов обучения

Мы раскрываем, что квантование с низким битовым разрешением благоприятствует недостаточно обученным большим языковым моделям (LLMs), наблюдая, что модели с большим размером или с меньшим количеством обучающих токенов испытывают меньшую деградацию, вызванную квантованием (QiD), при применении квантования с низким битовым разрешением, тогда как меньшие модели с обширным количеством обучающих токенов страдают от значительной QiD. Чтобы глубже понять эту тенденцию, мы изучили более 1500 квантованных контрольных точек LLM различных размеров и на разных уровнях обучения (недостаточно обученные или полностью обученные) в контролируемой среде, выводя законы масштабирования для понимания взаимосвязи между QiD и такими факторами, как количество обучающих токенов, размер модели и битовая ширина. С использованием полученных законов масштабирования мы предлагаем новую перспективу, согласно которой QiD можно использовать для оценки уровня обучения LLM и определения количества обучающих токенов, необходимых для полного обучения LLM различных размеров. Более того, мы используем законы масштабирования для прогнозирования производительности квантования LLM разных размеров, обученных на 100 триллионах токенов. Наше прогнозирование показывает, что производительность квантования с низким битовым разрешением будущих моделей, которые, как ожидается, будут обучены более чем на 100 триллионах токенов, может быть нежелательной. Это создает потенциальный вызов для квантования с низким битовым разрешением в будущем и подчеркивает необходимость учета уровня обучения модели при оценке исследований по квантованию с низким битовым разрешением. Для содействия будущим исследованиям по этой проблеме мы публикуем все 1500+ квантованных контрольных точек, использованных в этой работе, на сайте https://huggingface.co/Xu-Ouyang.

2024-11-27quantization prediction performance

Предсказание Эмерджентных Способностей с Помощью Дообучения

Одна из ключевых нерешённых проблем в современном масштабировании языковых моделей (LLM) — это недостаток понимания в отношении возникающих способностей. В частности, известно, что потери при предварительной тренировке языковых моделей можно довольно точно предсказать в зависимости от вычислительных ресурсов. Однако, способности модели на практике намного менее предсказуемы — иногда они даже демонстрируют внезапные скачки, что затрудняет прогнозирование возможностей будущих моделей. В данной работе мы сначала формулируем задачу предсказания возникновения: при доступе к текущим LLM, которые показывают случайную точность на заданной задаче, можно ли предсказать, будут ли будущие модели (GPT-N+1) демонстрировать значительную точность на этой задаче? Затем мы обнаруживаем простой инсайт для этой проблемы: дообучение LLM на конкретной задаче может сдвинуть точку масштабирования, в которой происходит возникновение, в сторону менее мощных моделей. Для реализации этого инсайта, мы можем дообучать LLM с различным объёмом данных и подогнать параметрическую функцию, которая предсказывает, когда произойдет возникновение (т.е., "законы возникновения"). Мы проверяем этот подход, используя четыре стандартных NLP бенчмарка, где крупномасштабные открытые LLM уже демонстрируют возникновение (MMLU, GSM8K, CommonsenseQA и CoLA). Используя только LLM малого масштаба, мы обнаруживаем, что в некоторых случаях мы можем точно предсказать, возникли ли модели, обученные с использованием до 4 раз больше вычислительных ресурсов. В заключение, мы представляем кейс-стади двух реалистичных применений предсказания возникновения.

2024-11-26scaling emergence prediction

UltraMem: Сверхразреженная память для языковых моделей

Широко признано, что производительность моделей Transformer экспоненциально связана с количеством их параметров и вычислительной сложностью. Хотя подходы, такие как "Смесь экспертов" (MoE), разделяют количество параметров и вычислительную сложность, они все еще сталкиваются с проблемами при инференции из-за высоких затрат на доступ к памяти. Эта работа представляет UltraMem, который включает крупномасштабный, ультраразреженный слой памяти для решения этих ограничений. Наш подход значительно снижает задержку инференции, при этом сохраняя производительность модели. Мы также исследуем законы масштабирования этой новой архитектуры, демонстрируя, что она не только обладает благоприятными свойствами масштабирования, но и превосходит традиционные модели. В наших экспериментах мы обучаем сети с количеством слотов памяти до 20 миллионов. Результаты показывают, что наш метод достигает рекордной скорости инференции и производительности модели в рамках заданного вычислительного бюджета.

2024-11-22performance memory scaling

Законы масштабирования: от потерь к потерям

Хотя законы масштабирования предоставляют надежную методологию для прогнозирования потерь обучения на различных вычислительных масштабах для одного распределения данных, меньше известно о том, как эти прогнозы должны изменяться при изменении распределения. В данной статье мы разрабатываем стратегию для предсказания одной потери на основе другой и применяем её для прогнозирования на различных наборах данных предварительного обучения, а также с данных предварительного обучения на данные задач ниже по потоку. Наши прогнозы хорошо экстраполируются даже при увеличении бюджета на операции на 20 раз по сравнению с наибольшим использованным для подгонки кривых. Более точно, мы обнаружили, что существуют простые сдвинутые степенные зависимости между: (1) потерями обучения двух моделей, обученных на двух разных наборах данных, когда модели сопоставляются по вычислительным ресурсам (от обучения к обучению), (2) потерями обучения и тестовыми потерями для одной модели на любом распределении данных ниже по потоку (от обучения к тесту), и (3) тестовыми потерями двух моделей, обученных на двух различных обучающих наборах данных (от теста к тесту). Результаты подтверждаются на предварительных наборах данных, которые существенно различаются (некоторые состоят исключительно из кода, другие не содержат кода вообще) и на различных задачах ниже по потоку. Наконец, мы выяснили, что в некоторых условиях эти сдвинутые степенные зависимости могут давать более точные прогнозы, чем экстраполяция законов масштабирования для одного набора данных.

2024-11-21loss distribution compute

LLaVA-o1: Пошаговое рассуждение для моделей видео-языка

Крупные языковые модели продемонстрировали значительные достижения в области способностей к рассуждению, особенно благодаря масштабированию в момент вывода, как это показано на примерах моделей, таких как o1 от OpenAI. Однако, текущие модели визуально-языкового взаимодействия (VLMs) часто сталкиваются с трудностями при выполнении систематического и структурированного рассуждения, особенно при работе с сложными задачами ответов на визуальные вопросы. В данной работе мы представляем LLaVA-o1, новую VLM, разработанную для проведения автономного многоступенчатого рассуждения. В отличие от подхода с цепочкой мыслей, LLaVA-o1 самостоятельно участвует в последовательных этапах: суммаризации, визуальной интерпретации, логического рассуждения и генерации выводов. Этот структурированный подход позволяет LLaVA-o1 достигать значительных улучшений в точности на задачах, требующих интенсивного рассуждения. Для этого мы собрали набор данных LLaVA-o1-100k, интегрировав образцы из различных источников визуального ответного взаимодействия и предоставив аннотации структурированного рассуждения. Кроме того, мы предлагаем метод поискового луча на уровне этапов в момент вывода, который обеспечивает эффективное масштабирование в момент вывода. Удивительно, но с всего лишь 100 тыс. обучающих образцов и простым, но эффективным методом масштабирования в момент вывода, LLaVA-o1 не только превосходит свою базовую модель на 8.9% по широкому спектру мультимодальных задач рассуждения, но и превосходит производительность более крупных и даже закрытых моделей, таких как Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.

2024-11-18benchmark model vision

Введение в BLIP3-KALE: Создание знание-обогащённых плотных описаний изображений

Мы представляем BLIP3-KALE, набор данных из 218 миллионов пар изображение-текст, который преодолевает разрыв между описательными синтетическими подписями и фактическими текстами альтернативного описания веб-уровня. KALE дополняет синтетические плотные описания изображений альтернативными текстами веб-уровня для создания обоснованных фактически подписей к изображениям. Наш двухэтапный подход использует крупные модели обработки зрительно-языковой информации и языковые модели для создания подписей, обогащенных знаниями, которые затем используются для обучения специализированной VLM для масштабирования набора данных. Мы обучаем модели обработки зрительно-языковой информации на KALE и демонстрируем улучшения в задачах, связанных с визуальным и языковым восприятием. Наши эксперименты показывают полезность KALE для обучения более способных и информированных мультимодальных моделей. Мы публикуем набор данных KALE по адресу https://huggingface.co/datasets/Salesforce/blip3-kale.

2024-11-13vision dataset scaling

Масштабирование свойств диффузионных моделей для перцептивных задач

В данной статье мы утверждаем, что итеративные вычисления с использованием моделей диффузии предлагают мощный подход не только для генерации, но и для задач зрительного восприятия. Мы объединяем такие задачи, как оценка глубины, оптический поток и сегментация, в рамках перевода изображение-к-изображению, и показываем, как модели диффузии выигрывают от масштабирования вычислительных ресурсов на этапах обучения и тестирования для этих задач восприятия. Через тщательный анализ этих масштабируемых поведений, мы представляем различные техники для эффективного обучения моделей диффузии для задач зрительного восприятия. Наши модели достигают улучшенных или сопоставимых результатов по сравнению с передовыми методами, используя значительно меньше данных и вычислительных ресурсов. Для использования нашего кода и моделей, посетите https://scaling-diffusion-perception.github.io.

2024-11-13training perception diffusion

Архитектура Mixture-of-Transformers (MoT) для мультимодальных фундаментальных моделей

Разработка крупных языковых моделей (LLMs) расширилась до многомодальных систем, способных обрабатывать текст, изображения и речь в рамках единой структуры. Обучение этих моделей требует значительно больших наборов данных и вычислительных ресурсов по сравнению с текстовыми LLMs. Для решения проблем масштабирования мы представляем Смесь трансформеров (MoT), разреженную многомодальную архитектуру трансформеров, которая значительно снижает вычислительные затраты на предобучение. MoT разделяет параметры модели, не связанные с встраиванием, по модальностям — включая полносвязные сети, матрицы внимания и нормализацию слоев — что позволяет осуществлять обработку, специфичную для модальности, с глобальным самовниманием по всей входной последовательности. Мы оцениваем MoT в различных условиях и масштабах моделей. В настройке Chameleon 7B (авторегрессивная генерация текста и изображений) MoT достигает производительности плотной базовой модели, используя только 55,8% FLOPS. При расширении на включение речи MoT достигает производительности речи, сравнимой с плотной базовой моделью, с использованием только 37,2% FLOPS. В настройке Transfusion, где текст и изображение обучаются с разными целями, модель MoT размером 7B соответствует производительности модальности изображения плотной базовой модели с одной трети FLOPS, а модель MoT размером 760M превосходит плотную базовую модель размером 1,4B по ключевым метрикам генерации изображений. Профилирование системы также подчеркивает практические преимущества MoT, достигая качества изображения плотной базовой модели за 47,2% от времени работы и качества текста за 75,6% от времени работы (измерено на экземплярах AWS p4de.24xlarge с GPU NVIDIA A100).

2024-11-08sparse scaling flops

Hunyuan-Large: Продвижение в области Моделей с Смесью Экспертов

В данной статье мы представляем модель Hunyuan-Large, которая на данный момент является крупнейшей открытой моделью, основанной на Transformer, с использованием технологии смешения экспертов. Она включает в себя 389 миллиардов параметров и 52 миллиарда параметров активации, способную обрабатывать до 256 тысяч токенов. Мы провели тщательную оценку превосходной производительности Hunyuan-Large по различным тестам, включая понимание и генерацию языка, логическое рассуждение, решение математических задач, программирование, задачи с длинным контекстом и агрегированные задачи, где она превосходит модель LLama3.1-70B и показывает сопоставимую производительность с значительно большей моделью LLama3.1-405B. Ключевые особенности Hunyuan-Large включают использование больших объемов синтетических данных, превышающих данные в предыдущих исследованиях, стратегию маршрутизации смешанных экспертов, технику сжатия кэша ключ-значение и стратегию скорости обучения, специфичную для экспертов. Кроме того, мы исследовали законы масштабирования и графики скорости обучения для моделей со смешением экспертов, предоставляя ценные инсайты и руководства для будущего развития и оптимизации моделей. Код и контрольные точки модели Hunyuan-Large выпущены для содействия будущим инновациям и применениям. Коды: https://github.com/Tencent/Hunyuan-Large Модели: https://huggingface.co/tencent/Tencent-Hunyuan-Large

2024-11-05learning benchmarks transformer

Открытие фундаментальных физических законов через видео генерацию: Перспектива физических законов

Вот перевод на русский язык: "Видео-генерация от OpenAI Sora подчеркивает потенциал для разработки мировых моделей, которые следуют фундаментальным физическим законам. Однако способность моделей генерации видео обнаруживать такие законы исключительно на основе визуальных данных без человеческих предпосылок может быть поставлена под сомнение. Модель мира, изучающая истинный закон, должна давать прогнозы, устойчивые к нюансам, и правильно экстраполировать на невиданные сценарии. В этой работе мы оцениваем три ключевых сценария: в рамках распределения, за пределами распределения и комбинаторная обобщаемость. Мы разработали тестовую среду для симуляции 2D-движения объектов и их столкновений для генерации видео, детерминированно управляемых одним или несколькими законами классической механики. Это обеспечивает неограниченный запас данных для крупномасштабных экспериментов и позволяет количественно оценить, соблюдают ли сгенерированные видео физические законы. Мы обучили модели генерации видео на основе диффузии для предсказания движения объектов на основе начальных кадров. Наши эксперименты по масштабированию показывают идеальную обобщаемость в рамках распределения, измеримое поведение масштабирования для комбинаторной обобщаемости, но неудачи в сценариях за пределами распределения. Дальнейшие эксперименты выявили два ключевых инсайта о механизмах обобщения этих моделей: (1) модели не могут абстрагировать общие физические правила и вместо этого демонстрируют "казусное" поведение обобщения, то есть имитируют ближайший пример обучения; (2) при обобщении на новые случаи модели отдают приоритет различным факторам при обращении к обучающим данным: цвет > размер > скорость > форма. Наше исследование показывает, что масштабирование само по себе недостаточно для того, чтобы модели генерации видео могли раскрывать фундаментальные физические законы, несмотря на его роль в более широком успехе Sora. См. страницу нашего проекта на https://phyworld.github.io."

2024-11-05scaling generalization diffusion

Законы разреженности активации: К большим языковым моделям с большей разреженностью активации

Спарсность активации указывает на наличие значительного количества слабо вносящих вклад элементов в выходах активации, которые можно устранить, что полезно для многих важных приложений, связанных с крупными языковыми моделями (LLMs). Хотя поощрение большей спарсности активации в LLMs заслуживает глубоких исследований, существующие работы не обладают всесторонними и количественными исследованиями корреляции между спарсностью активации и потенциально влиятельными факторами. В данной статье мы представляем всестороннее исследование количественных масштабируемых свойств и влиятельных факторов спарсности активации в декодер-ориентированных трансформерных LLMs. В частности, мы предлагаем метрику спарсности активации PPL-p%, которая является точной и учитывающей производительность, и применима к любой функции активации. Проведя обширные эксперименты, мы обнаружили несколько важных явлений. Во-первых, различные функции активации показывают сопоставимую производительность, но противоположные тенденции спарсности во время обучения. Коэффициент активации (т.е., 1 минус коэффициент спарсности) эволюционирует как сходящаяся возрастающая степенная зависимость и убывающая логарифмическая степенная зависимость от объема обучающих данных для LLMs с активацией SiLU и ReLU соответственно. Это показывает, что ReLU более эффективен как функция активации по сравнению с SiLU и может использовать больше данных для улучшения спарсности активации. Во-вторых, коэффициент активации линейно увеличивается с отношением ширины к глубине до определенной точки узкого места, что указывает на потенциальное преимущество более глубокой архитектуры при фиксированном масштабе параметров. Наконец, при схожих отношениях ширины и глубины мы удивительно обнаружили, что предельное значение спарсности активации слабо зависит от масштаба параметров, т.е. активационные паттерны в LLM не чувствительны к масштабу параметров. Эти эмпирические законы для LLMs с большей спарсностью активации имеют важные последствия для повышения эффективности и интерпретируемости LLMs.

2024-11-05scaling silu activation

GlotCC: Открытый Корпус и Пайплайн для Обработки Данных на Малоизученных Языках

Потребность в крупных текстовых корпусах возросла с появлением предобученных языковых моделей и, в частности, с открытием законов масштабирования для этих моделей. Большинство доступных корпусов содержат достаточное количество данных только для языков с большими доминирующими сообществами. Однако, нет корпуса, который бы (i) охватывал широкий спектр языков меньшинств; (ii) создавался с использованием открытого и воспроизводимого конвейера; и (iii) был тщательно очищен от шума, что делает его надёжным для использования. Мы представляем GlotCC, чистый, документный, общедоменный корпус объемом 2 ТБ, созданный на основе CommonCrawl, который охватывает более 1000 языков. Мы делаем доступными GlotCC и систему, используемую для его создания, включая конвейер, модель идентификации языка и фильтры, для научного сообщества. Корпус v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Конвейер v. 3.0 https://github.com/cisnlp/GlotCC.

2024-11-01language scaling cleaning

BitStack: Эффективное управление памятью для сжатия больших языковых моделей

Крупные языковые модели (LLMs) произвели революцию во многих приложениях, однако их внедрение до сих пор сталкивается с ограничениями памяти на локальных устройствах. Хотя законы масштабирования улучшили возможности LLM, основное узкое место сместилось от возможностей к доступности, подчеркивая необходимость эффективного управления памятью. Традиционные методы сжатия, такие как квантование, часто требуют заранее определенных соотношений сжатия и отдельных процессов сжатия для каждого настройки, что усложняет развертывание в условиях переменной памяти. В данной статье мы представляем BitStack, новый подход к сжатию весов без обучения, который позволяет осуществлять компромиссы на уровне мегабайт между использованием памяти и производительностью модели. Используя декомпозицию весов, BitStack может динамически настраивать размер модели с минимальной передачей данных между оперативной памятью и устройствами хранения. Наш подход итеративно разлагает матрицы весов с учетом значимости каждого параметра, в результате чего получается приблизительно 1-битовый остаточный блок на параметр в каждой итерации декомпозиции. Эти блоки сортируются и складываются в хранилище как базовые единицы передачи, при этом разное их количество загружается в зависимости от текущей доступности памяти. Многочисленные эксперименты по широкому спектру задач показывают, что, несмотря на предоставление детального контроля над размером, BitStack последовательно соответствует или превосходит сильные базовые показатели квантования, особенно при экстремальных коэффициентах сжатия. Насколько нам известно, это первый метод на основе декомпозиции, который эффективно сокращает разрыв между практическими техниками сжатия, такими как квантование. Код доступен по адресу: https://github.com/xinghaow99/BitStack.

2024-11-01models quantization decomposition