Свежая выжимка ml и AI статей - каждый день
В современном мире машинного обучения, особенно в контексте масштабирования больших языковых моделей (LLM), одной из ключевых проблем является непредсказуемость появления новых способностей у моделей. Хотя потери при предварительном обучении модели можно предсказать с высокой точностью в зависимости от вычислительных ресурсов, предсказание конкретных способностей модели на различных задачах остается сложным. В данной статье мы исследуем концепцию предсказания эмерджентных способностей, используя дообучение моделей, и предлагаем методологию для более точного прогнозирования.
Эмерджентные способности — это такие навыки или функции, которые модель демонстрирует только после достижения определенного порога масштабирования, часто внезапно и без явного предупреждения. Эти способности могут включать в себя понимание сложных логических задач, генерацию креативных текстов или даже решение математических проблем, которые не были явно представлены в обучающих данных.
Предварительное обучение языковых моделей следует предсказуемым законам масштабирования, где потери на обучающих данных уменьшаются в соответствии с законом степенного распределения в зависимости от количества вычислений, параметров модели и объема данных. Это позволяет разработчикам довольно точно оценивать, какие результаты модель может показать при определенных условиях обучения.
Однако, когда речь идет о конкретных задачах, таких как понимание общего смысла, решение логических задач или даже обман, предсказать, когда и как модель начнет демонстрировать эти способности, гораздо сложнее. Это создает проблемы для разработчиков, политиков и инвесторов, которые должны планировать будущие возможности моделей.
В нашем исследовании мы обнаружили, что дообучение модели на конкретной задаче может сдвинуть точку эмердженции в сторону менее мощных моделей. Это открытие позволяет нам использовать дообучение как инструмент для прогнозирования будущих способностей моделей.
Мы дообучаем модели на различных объемах данных и подгоняем параметрическую функцию, которую мы называем "законом эмердженции". Эта функция моделирует, как точка эмердженции изменяется в зависимости от объема данных для дообучения.
Сбор данных: Мы используем промежуточные контрольные точки моделей с различной степенью обученности и дообучаем их на подмножествах данных, чтобы понять, как изменяется точка эмердженции.
Моделирование: Используя данные дообучения, мы подгоняем функцию, которая описывает сдвиг точки эмердженции в зависимости от объема данных дообучения. Эта функция имеет вид:
$$ E_{\theta}(D) = k \cdot \log(D)^{\alpha} + C $$
где $E_{\theta}(D)$ — это точка эмердженции, $D$ — объем данных для дообучения, а $k$, $\alpha$ и $C$ — параметры, которые мы подгоняем.
Предсказание: Экстраполируя результаты дообучения в пределы малых объемов данных, мы можем предсказать, когда эмердженция произойдет в условиях few-shot обучения.
Мы проверили наш подход на четырех стандартных NLP задачах, где крупные модели уже демонстрируют эмердженцию: MMLU, GSM8K, CommonsenseQA и CoLA. Используя только модели с меньшим масштабом, мы смогли точно предсказать, когда модели, обученные с использованием до 4 раз больше вычислительных ресурсов, достигнут точки эмердженции.
Дообучение может быть использовано для оценки качества данных предварительного обучения. Например, сравнивая модели, обученные на разных корпусах данных, мы можем определить, какие данные более эффективны для развития определенных способностей.
Мы также продемонстрировали, как наш метод может быть применен для прогнозирования более сложных способностей, которые могут появиться у будущих моделей. Например, на задаче APPS, где все модели LLaMA 2 показывали случайную точность, мы предсказали, что эмердженция может произойти при параметризации около 325 миллиардов параметров.
Предсказание эмерджентных способностей с помощью дообучения открывает новые возможности для разработчиков и исследователей в области машинного обучения. Это не только позволяет более точно планировать будущие разработки моделей, но и помогает в управлении рисками, связанными с непредсказуемыми способностями AI. Наш подход, основанный на дообучении и законах эмердженции, представляет собой значительный шаг вперед в понимании и управлении масштабированием языковых моделей.