Предсказание Эмерджентных Способностей с Помощью Дообучения
Одна из ключевых нерешённых проблем в современном масштабировании языковых моделей (LLM) — это недостаток понимания в отношении возникающих способностей. В частности, известно, что потери при предварительной тренировке языковых моделей можно довольно точно предсказать в зависимости от вычислительных ресурсов. Однако, способности модели на практике намного менее предсказуемы — иногда они даже демонстрируют внезапные скачки, что затрудняет прогнозирование возможностей будущих моделей. В данной работе мы сначала формулируем задачу предсказания возникновения: при доступе к текущим LLM, которые показывают случайную точность на заданной задаче, можно ли предсказать, будут ли будущие модели (GPT-N+1) демонстрировать значительную точность на этой задаче? Затем мы обнаруживаем простой инсайт для этой проблемы: дообучение LLM на конкретной задаче может сдвинуть точку масштабирования, в которой происходит возникновение, в сторону менее мощных моделей. Для реализации этого инсайта, мы можем дообучать LLM с различным объёмом данных и подогнать параметрическую функцию, которая предсказывает, когда произойдет возникновение (т.е., "законы возникновения"). Мы проверяем этот подход, используя четыре стандартных NLP бенчмарка, где крупномасштабные открытые LLM уже демонстрируют возникновение (MMLU, GSM8K, CommonsenseQA и CoLA). Используя только LLM малого масштаба, мы обнаруживаем, что в некоторых случаях мы можем точно предсказать, возникли ли модели, обученные с использованием до 4 раз больше вычислительных ресурсов. В заключение, мы представляем кейс-стади двух реалистичных применений предсказания возникновения.