Свежая выжимка ml и AI статей - каждый день
В последние годы большие языковые модели (LLMs) стали важной вехой в области искусственного интеллекта, демонстрируя значительные улучшения в различных задачах. Однако увеличение размера моделей создает множество проблем, связанных с эффективностью их обучения и вывода, особенно в условиях ограниченных ресурсов. В этой статье мы представим концепцию "плотности ёмкости", которая служит новой метрикой для оценки качества обучения LLM на разных масштабах и описывает тенденцию LLM с точки зрения как эффективности, так и производительности.
Большие языковые модели, такие как GPT-3 и PaLM, продемонстрировали выдающиеся результаты в различных задачах, включая обработку естественного языка, генерацию текста и решение математических задач. Однако с увеличением размера моделей возникают проблемы, связанные с эффективностью их обучения и вывода. В частности, затраты на вывод превышают затраты на обучение, что приводит к необходимости разработки более компактных и эффективных моделей для развертывания на устройствах с ограниченными ресурсами.
Плотность ёмкости определяется как отношение эффективного размера параметров модели к ее фактическому размеру параметров. Эффективный размер параметров — это минимальное количество параметров, необходимых для модели-референса, чтобы достичь производительности, эквивалентной целевой модели. Таким образом, плотность ёмкости служит унифицированной рамкой для оценки как эффективности модели, так и ее производительности.
В нашей работе мы выявили эмпирический закон, который мы назвали "Законом Дензинга". Этот закон утверждает, что максимальная плотность ёмкости LLM демонстрирует экспоненциальный рост со временем. На основании анализа 29 широко используемых открытых базовых моделей, выпущенных с 2023 года, мы обнаружили, что плотность ёмкости удваивается примерно каждые три месяца. Это означает, что через три месяца можно добиться производительности, сопоставимой с текущими передовыми моделями, используя модель с половиной количества параметров.
Закон Дензинга имеет несколько важных следствий:
Для оценки плотности LLM мы разрабатываем метод, который включает в себя:
Для вычисления плотности LLM мы сначала обучаем серию моделей-референсов с различными размерами параметров и данными для обучения. Затем мы подгоняем функцию между размером параметров и производительностью, что позволяет нам вычислить эффективный размер параметров для целевой модели.
Мы провели анализ плотности для 29 моделей, выпущенных с 2023 года, используя пять широко используемых бенчмарков: MMLU, BBH, MATH, HumanEval и MBPP. Результаты показывают, что плотность LLM значительно увеличилась за короткий период времени, что подтверждает наш Закон Дензинга.
В данной статье мы представили концепцию плотности ёмкости как новую метрику для оценки качества обучения больших языковых моделей. Наши результаты показывают, что плотность ёмкости LLM увеличивается экспоненциально, что открывает новые горизонты для разработки более эффективных и производительных моделей. Мы надеемся, что Закон Дензинга и его следствия помогут направить дальнейшие исследования в области LLM, акцентируя внимание на важности повышения плотности ёмкости для достижения оптимальных результатов с минимальными вычислительными затратами.