Свежая выжимка ml и AI статей - каждый день
С недавними достижениями в области больших языковых моделей (LLM) стало очевидно, что улучшение качества данных может соперничать и даже превосходить прирост производительности, достигнутый за счет увеличения вычислительных мощностей и размера моделей. В этом контексте представляем вам модель Phi-4, состоящую из 14 миллиардов параметров, которая значительно улучшает производительность по сравнению с предыдущими моделями благодаря инновационным методам генерации синтетических данных для задач, требующих логического мышления, а также оптимизации учебного процесса и смешивания данных.
Синтетические данные составляют основу обучающего набора для Phi-4. Они генерируются с использованием разнообразных техник, включая многоагентное взаимодействие, саморевизию и обратное преобразование инструкций. Эти методы позволяют создавать наборы данных, которые развивают более сильные способности к логическому мышлению и решению проблем у модели, устраняя некоторые слабости традиционных неразмеченных наборов данных.
Синтетические данные не являются простым заменителем органических данных. Они обладают рядом преимуществ, таких как:
Для Phi-4 было создано около 50 типов синтетических наборов данных, каждый из которых основывается на различных наборах исходных данных и многоступенчатых процедурах запросов, охватывающих широкий спектр тем и навыков.
Для дополнения синтетических наборов данных были тщательно отобраны и отфильтрованы органические источники данных, включая веб-контент, лицензированные книги и репозитории кода. Эти данные служат основой для синтетической генерации, обеспечивая высокую глубину рассуждений и придавая образовательную ценность модели.
Постобучение в Phi-4 включает в себя создание новых, уточненных версий наборов данных, а также разработку новой техники для создания пар DPO (Direct Preference Optimization), основанных на поиске ключевых токенов. Эти инновации обеспечивают производительность Phi-4 на уровне или даже выше, чем у более крупных моделей.
Одной из проблем, с которой сталкиваются языковые модели, является переобучение на бенчмарках. Для Phi-4 была улучшена процедура деактивации данных, чтобы избежать несправедливого влияния на результаты оценки. Модель тестировалась на свежих данных, что подтверждает, что ее высокая производительность не является результатом переобучения.
Предобучение Phi-4 полагается на синтетические наборы данных, которые создаются с использованием различных методов. Основные принципы генерации синтетических данных включают:
Фильтрация органических данных включает в себя сбор высококачественных вопросов и решений из различных источников, таких как веб-сайты и платформы вопросов и ответов. Вопросы отбираются с помощью техники голосования, что позволяет сбалансировать уровень сложности и обеспечить, чтобы они были доступны для модели.
Постобучение включает в себя использование тщательно отобранных пользовательских запросов для генерации множества ответов модели. Эти ответы затем оцениваются с помощью LLM, и выбираются лучшие.
Phi-4 основана на архитектуре трансформера только для декодеров и имеет 14 миллиардов параметров. Модель была предобучена на примерно 10 триллионах токенов с использованием линейного разогрева и расписаний снижения. В процессе предобучения использовались внутренние реализации бенчмарков, что обеспечивало более точные результаты.
Для создания эффективного набора данных для предобучения использовалась стратегия смешивания, которая включает в себя синтетические данные, переписанные данные с веб-источников и высококачественные органические данные. Это позволяет модели лучше справляться с задачами, требующими логического мышления.
В процессе промежуточного обучения длина контекста была увеличена с 4K до 16K токенов. Это позволяет модели обрабатывать более длинные последовательности данных и улучшает ее производительность на задачах с длинным контекстом.
Постобучение Phi-4 направлено на превращение предобученной языковой модели в AI-ассистента, с которым пользователи могут безопасно взаимодействовать. Этот процесс включает в себя несколько этапов, включая Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO).
На этом этапе модель дообучается на разнообразных данных, включая математику, кодирование и разговорные сценарии. Используется около 8 миллиардов токенов, чтобы улучшить производительность модели.
DPO используется для согласования модели с предпочтениями пользователей и для управления нежелательным поведением. Этот процесс включает в себя создание пар желаемых и нежелательных выходов, что позволяет улучшать качество ответов модели.
Phi-4 была протестирована на ряде стандартных бенчмарков, включая MMLU, GPQA и MATH. Результаты показывают, что модель значительно превосходит своего предшественника GPT-4o на ряде задач, требующих логического мышления и математических способностей.
Phi-4 демонстрирует высокую производительность по сравнению с другими моделями аналогичного размера и значительно превышает производительность более крупных моделей в задачах, связанных с STEM. Например, на бенчмарке GPQA модель показывает результаты, сопоставимые с результатами более крупных моделей.
Phi-4 продемонстрировала устойчивость к переобучению, что подтверждается ее результатами на свежих тестах, которые не были частью обучающего набора. Это указывает на то, что модель способна обобщать свои знания и применять их к новым задачам.
Phi-4 представляет собой значительный шаг вперед в разработке языковых моделей, сосредоточив внимание на качестве данных и инновационных методах их генерации. Синтетические данные, оптимизация учебного процесса и постобучение позволяют модели достигать высоких результатов в задачах, требующих логического мышления и анализа. Это открывает новые возможности для применения языковых моделей в различных областях, от образования до научных исследований.