Phi-4: Модель языка нового поколения

С недавними достижениями в области больших языковых моделей (LLM) стало очевидно, что улучшение качества данных может соперничать и даже превосходить прирост производительности, достигнутый за счет увеличения вычислительных мощностей и размера моделей. В этом контексте представляем вам модель Phi-4, состоящую из 14 миллиардов параметров, которая значительно улучшает производительность по сравнению с предыдущими моделями благодаря инновационным методам генерации синтетических данных для задач, требующих логического мышления, а также оптимизации учебного процесса и смешивания данных.

Основные концепции Phi-4

1. Синтетические данные для предобучения и промежуточного обучения

Синтетические данные составляют основу обучающего набора для Phi-4. Они генерируются с использованием разнообразных техник, включая многоагентное взаимодействие, саморевизию и обратное преобразование инструкций. Эти методы позволяют создавать наборы данных, которые развивают более сильные способности к логическому мышлению и решению проблем у модели, устраняя некоторые слабости традиционных неразмеченных наборов данных.

1.1 Генерация синтетических данных

Синтетические данные не являются простым заменителем органических данных. Они обладают рядом преимуществ, таких как:

Структурированное и постепенное обучение: Синтетические данные формируют более прямую связь между токенами, что облегчает модели обучение.
Соответствие контекстам вывода: Синтетические данные ближе к формату ожидаемых выходных данных, что повышает вероятность успешного выполнения задач.

Для Phi-4 было создано около 50 типов синтетических наборов данных, каждый из которых основывается на различных наборах исходных данных и многоступенчатых процедурах запросов, охватывающих широкий спектр тем и навыков.

2. Курация и фильтрация высококачественных органических данных

Для дополнения синтетических наборов данных были тщательно отобраны и отфильтрованы органические источники данных, включая веб-контент, лицензированные книги и репозитории кода. Эти данные служат основой для синтетической генерации, обеспечивая высокую глубину рассуждений и придавая образовательную ценность модели.

3. Постобучение

Постобучение в Phi-4 включает в себя создание новых, уточненных версий наборов данных, а также разработку новой техники для создания пар DPO (Direct Preference Optimization), основанных на поиске ключевых токенов. Эти инновации обеспечивают производительность Phi-4 на уровне или даже выше, чем у более крупных моделей.

4. Решение проблем переобучения и загрязнения данных

Одной из проблем, с которой сталкиваются языковые модели, является переобучение на бенчмарках. Для Phi-4 была улучшена процедура деактивации данных, чтобы избежать несправедливого влияния на результаты оценки. Модель тестировалась на свежих данных, что подтверждает, что ее высокая производительность не является результатом переобучения.

Подход к данным

1. Генерация синтетических данных

Предобучение Phi-4 полагается на синтетические наборы данных, которые создаются с использованием различных методов. Основные принципы генерации синтетических данных включают:

Разнообразие: Наборы данных должны охватывать различные подкатегории и навыки в каждой области.
Тонкость и сложность: Эффективное обучение требует сложных, нетривиальных примеров.
Точность: Код должен выполняться правильно, а объяснения должны соответствовать установленным знаниям.
Цепочка рассуждений: Данные должны способствовать систематическому мышлению, обучая модель различным подходам к решению проблем.

2. Фильтрация органических данных

Фильтрация органических данных включает в себя сбор высококачественных вопросов и решений из различных источников, таких как веб-сайты и платформы вопросов и ответов. Вопросы отбираются с помощью техники голосования, что позволяет сбалансировать уровень сложности и обеспечить, чтобы они были доступны для модели.

3. Постобучение

Постобучение включает в себя использование тщательно отобранных пользовательских запросов для генерации множества ответов модели. Эти ответы затем оцениваются с помощью LLM, и выбираются лучшие.

Архитектура и детали обучения

Phi-4 основана на архитектуре трансформера только для декодеров и имеет 14 миллиардов параметров. Модель была предобучена на примерно 10 триллионах токенов с использованием линейного разогрева и расписаний снижения. В процессе предобучения использовались внутренние реализации бенчмарков, что обеспечивало более точные результаты.

1. Смешивание данных

Для создания эффективного набора данных для предобучения использовалась стратегия смешивания, которая включает в себя синтетические данные, переписанные данные с веб-источников и высококачественные органические данные. Это позволяет модели лучше справляться с задачами, требующими логического мышления.

2. Увеличение длины контекста

В процессе промежуточного обучения длина контекста была увеличена с 4K до 16K токенов. Это позволяет модели обрабатывать более длинные последовательности данных и улучшает ее производительность на задачах с длинным контекстом.

Постобучение и оптимизация

Постобучение Phi-4 направлено на превращение предобученной языковой модели в AI-ассистента, с которым пользователи могут безопасно взаимодействовать. Этот процесс включает в себя несколько этапов, включая Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO).

1. Supervised Fine-Tuning

На этом этапе модель дообучается на разнообразных данных, включая математику, кодирование и разговорные сценарии. Используется около 8 миллиардов токенов, чтобы улучшить производительность модели.

2. Direct Preference Optimization

DPO используется для согласования модели с предпочтениями пользователей и для управления нежелательным поведением. Этот процесс включает в себя создание пар желаемых и нежелательных выходов, что позволяет улучшать качество ответов модели.

Оценка производительности

Phi-4 была протестирована на ряде стандартных бенчмарков, включая MMLU, GPQA и MATH. Результаты показывают, что модель значительно превосходит своего предшественника GPT-4o на ряде задач, требующих логического мышления и математических способностей.

1. Сравнение с другими моделями

Phi-4 демонстрирует высокую производительность по сравнению с другими моделями аналогичного размера и значительно превышает производительность более крупных моделей в задачах, связанных с STEM. Например, на бенчмарке GPQA модель показывает результаты, сопоставимые с результатами более крупных моделей.

2. Устойчивость к переобучению

Phi-4 продемонстрировала устойчивость к переобучению, что подтверждается ее результатами на свежих тестах, которые не были частью обучающего набора. Это указывает на то, что модель способна обобщать свои знания и применять их к новым задачам.

Заключение

Phi-4 представляет собой значительный шаг вперед в разработке языковых моделей, сосредоточив внимание на качестве данных и инновационных методах их генерации. Синтетические данные, оптимизация учебного процесса и постобучение позволяют модели достигать высоких результатов в задачах, требующих логического мышления и анализа. Это открывает новые возможности для применения языковых моделей в различных областях, от образования до научных исследований.

Статья на arxiv Оригинал pdf model parameters performance

Ай Дайджест

Phi-4: Модель языка нового поколения

Основные концепции Phi-4

1. Синтетические данные для предобучения и промежуточного обучения

1.1 Генерация синтетических данных

2. Курация и фильтрация высококачественных органических данных

3. Постобучение

4. Решение проблем переобучения и загрязнения данных

Подход к данным

1. Генерация синтетических данных

2. Фильтрация органических данных

3. Постобучение

Архитектура и детали обучения

1. Смешивание данных

2. Увеличение длины контекста

Постобучение и оптимизация

1. Supervised Fine-Tuning

2. Direct Preference Optimization

Оценка производительности

1. Сравнение с другими моделями

2. Устойчивость к переобучению

Заключение