Ай Дайджест - категория emergence

Предсказание Эмерджентных Способностей с Помощью Дообучения

Одна из ключевых нерешённых проблем в современном масштабировании языковых моделей (LLM) — это недостаток понимания в отношении возникающих способностей. В частности, известно, что потери при предварительной тренировке языковых моделей можно довольно точно предсказать в зависимости от вычислительных ресурсов. Однако, способности модели на практике намного менее предсказуемы — иногда они даже демонстрируют внезапные скачки, что затрудняет прогнозирование возможностей будущих моделей. В данной работе мы сначала формулируем задачу предсказания возникновения: при доступе к текущим LLM, которые показывают случайную точность на заданной задаче, можно ли предсказать, будут ли будущие модели (GPT-N+1) демонстрировать значительную точность на этой задаче? Затем мы обнаруживаем простой инсайт для этой проблемы: дообучение LLM на конкретной задаче может сдвинуть точку масштабирования, в которой происходит возникновение, в сторону менее мощных моделей. Для реализации этого инсайта, мы можем дообучать LLM с различным объёмом данных и подогнать параметрическую функцию, которая предсказывает, когда произойдет возникновение (т.е., "законы возникновения"). Мы проверяем этот подход, используя четыре стандартных NLP бенчмарка, где крупномасштабные открытые LLM уже демонстрируют возникновение (MMLU, GSM8K, CommonsenseQA и CoLA). Используя только LLM малого масштаба, мы обнаруживаем, что в некоторых случаях мы можем точно предсказать, возникли ли модели, обученные с использованием до 4 раз больше вычислительных ресурсов. В заключение, мы представляем кейс-стади двух реалистичных применений предсказания возникновения.

2024-11-26compute emergence scaling

Физика в предсказании следующего токена: Передача информации и энергии в авто-регрессионных моделях

Мы открыли базовые физические принципы в предсказании следующего токена (NTP). Мы идентифицировали закон сохранения информации в NTP и предложили Первый закон информационной ёмкости (IC-1), демонстрирующий, что суть возникновения интеллекта в авторегрессионных моделях по своей сути является процессом передачи информации. Мы также ввели в NTP принцип Ландауэра, сформулировав Второй закон информационной ёмкости (IC-2), который устанавливает связь между обучением авторегрессионных моделей и потреблением энергии. Кроме того, мы представили несколько следствий, имеющих практическое значение для производственных практик. В заключение, мы подтвердили совместимость и дополняемость наших открытий с существующими теориями.

2024-11-04energy prediction capacity