Установление законов масштабирования задач через эффективные модели лестницы

Современные языковые модели (Language Models, LMs) требуют значительных вычислительных ресурсов для предварительного обучения. С учетом временных и вычислительных ограничений, а также множества решений, связанных с созданием LMs (например, выбор подходящей смеси данных для предварительного обучения и оптимизация архитектуры модели), возможность предсказать производительность модели на конкретной задаче до фактического обучения позволяет более эффективно распределять ресурсы и экспериментировать с различными подходами.

Однако экстраполировать производительность модели при больших масштабах из моделей, обученных на меньших масштабах, является сложной задачей. В предыдущих исследованиях были получены предварительные результаты по предсказанию средней производительности по множеству задач или для одной выбранной задачи, но они требовали значительных вычислительных затрат. В данной работе мы решаем задачу предсказания индивидуальной производительности LMs как функции размера модели и объема обучающих данных.

Методология

Два этапа предсказания

Мы предлагаем двухступенчатый подход к предсказанию производительности моделей. На первом этапе мы используем количество параметров модели (N) и количество обучающих токенов (D) для предсказания задачи-специфической потери (task loss). Эта потеря определяется как отрицательное логарифмическое правдоподобие правильного ответа, деленное на его длину в байтах, что также известно как метрика bits-per-byte (bpb). На втором этапе мы используем эту задачу-потерю для предсказания точности выполнения задачи.

Для подгонки параметров двух функций, используемых для предсказаний, мы измеряем задачу-потерю и точность на различных маломасштабных моделях, варьируя количество параметров и объем данных. В общей сложности мы обучаем набор маломасштабных моделей, которые мы называем "лестничными моделями", и собираем данные для подгонки параметризованных функций для двух целевых моделей: модели с 7 миллиардами параметров, обученной на 4 триллионах токенов, и модели с 13 миллиардами параметров, обученной на 5 триллионах токенов.

Лестничные модели

Лестничные модели имеют ту же архитектуру и обучаются на той же смеси данных, что и целевые модели. Они должны охватывать широкий диапазон размеров модели и объемов обучающих данных, при этом затраты на их обучение составляют всего 1% от вычислительных ресурсов, необходимых для обучения крупных целевых моделей. Мы используем четыре разных размера моделей, варьируя ширину и глубину трансформера, и обучаем каждую модель на различных кратных оптимальному количеству токенов по методике Chinchilla.

Результаты

Мы применяем наш метод на восьми выбранных задачах из набора OLMES, включая MMLU, HellaSwag и ARC-Challenge. На четырех из этих задач наши предсказания находятся в пределах абсолютной ошибки 2 пункта для обеих целевых моделей. Однако на других четырех задачах мы наблюдаем более высокую ошибку предсказания, в среднем 6.9 пункта, что часто связано с высокой дисперсией метрик задач.

Анализ ошибок предсказания

Мы проводим несколько анализов, чтобы количественно оценить сложность самой задачи предсказания для различных целевых моделей, измеряя дисперсию в задаче-потере и точности. Мы также показываем, что использование меньшего количества вычислений для обучения меньшего числа лестничных моделей приводит к ухудшению предсказаний.

Заключение

В данной работе мы разработали лестничные модели и законы масштабирования задач, которые позволяют предсказывать производительность предварительно обученных языковых моделей. С использованием менее 1% вычислительных ресурсов, необходимых для предварительного обучения, мы смогли предсказать производительность моделей на индивидуальных задачах с хорошей точностью. В будущем мы надеемся уменьшить шум в метриках оценки задач, увеличив размер этих наборов для оценки, что может привести к еще меньшим ошибкам предсказания.

Статья на arxiv Оригинал pdf models scaling predictions