Свежая выжимка ml и AI статей - каждый день
В последние годы большие языковые модели (LLM) привлекли внимание исследователей и разработчиков благодаря своим впечатляющим возможностям в области обработки естественного языка и потенциальной роли в создании искусственного общего интеллекта (AGI). В этом контексте мы представляем Yi-Lightning, наш новый флагманский LLM, который продемонстрировал выдающиеся результаты на платформе Chatbot Arena, заняв 6-е место в общем рейтинге и 2-4 места в специализированных категориях, таких как китайский язык, математика, программирование и сложные запросы.
Yi-Lightning основан на улучшенной архитектуре Mixture-of-Experts (MoE), которая включает в себя усовершенствованные механизмы сегментации и маршрутизации экспертов, а также оптимизированные методы кэширования ключей и значений (KV-caching). В процессе разработки модели мы применили комплексный подход, включающий предобучение, контролируемую дообучение (SFT) и обучение с подкреплением на основе обратной связи от человека (RLHF). Мы также внедрили RAISE (Responsible AI Safety Engine) — четырехкомпонентную структуру для решения вопросов безопасности на всех этапах жизненного цикла модели.
Yi-Lightning использует архитектуру MoE, которая позволяет эффективно активировать только определенные подмодели для обработки входных данных. Это достигается за счет нескольких ключевых инноваций.
Недавние исследования показали, что по мере увеличения размера плотных моделей их активационные паттерны становятся все более разряженными. Это указывает на то, что параметры не используются равномерно во время вывода, что приводит к вычислительным неэффективностям. Архитектура MoE решает эту проблему, выбирая токены для активации только определенных нейронных подмножеств. Однако даже в моделях MoE проблема разреженных активаций сохраняется. Мы применили стратегию сегментации экспертов, которая разбивает сеть каждого эксперта на более мелкие функциональные единицы, что позволяет значительно повысить эффективность использования параметров.
Стратегия маршрутизации экспертов играет ключевую роль в оптимизации эффективности обучения и качества модели. Мы внедрили механизм балансировки нагрузки, который способствует равномерному распределению токенов по всем экспертам. Это позволяет предотвратить коллапс экспертов и повысить общую эффективность обучения.
Мы внедрили гибридные блоки внимания, которые комбинируют слои скользящего окна с одним полным слоем внимания. Это позволяет эффективно захватывать как локальные паттерны, так и глобальные зависимости. Оптимизация использования памяти достигается за счет кэширования состояний ключей и значений между последовательными полными слоями внимания, что позволяет сократить требования к памяти на 82.8%.
Предобучение Yi-Lightning основывается на многоязычных веб-документах, книгах, научных статьях и кодах. Мы усилили механизмы фильтрации, чтобы исключить небезопасный контент и личную информацию. Используя токенизацию на основе кодирования пар байтов (BPE), мы расширили размер словаря до 100,352 токенов, что улучшает поддержку многоязычности.
Обучение модели проходит в три этапа: начальное предобучение, промежуточное обучение и быстрое затухающее обучение. На начальном этапе мы используем стратегию разминки, чтобы тщательно исследовать пространство параметров. Промежуточное обучение сосредоточено на расширении возможностей модели и увеличении длины контекста. На последнем этапе мы комбинируем агрессивное затухание скорости обучения с динамической оптимизацией размера пакета.
После быстрого затухания мы применяем дополнительное обучение для увеличения длины контекста до 64K токенов, что позволяет модели обрабатывать более длинные последовательности без потери производительности.
Послеобучение модели включает в себя два последовательных этапа: контролируемое дообучение и обучение с подкреплением на основе обратной связи от человека. Мы применяем многоступенчатую стратегию для улучшения возможностей модели.
Процесс SFT включает в себя использование синтетических данных для улучшения основных возможностей в математике и программировании. Мы также применяем стратегию поэтапного расширения данных, чтобы быстро повысить возможности модели.
Обучение языковых моделей с использованием обратной связи от человека становится важным шагом для практического применения. Мы реализуем двухступенчатый подход к обучению моделей вознаграждения, который включает в себя предварительное обучение модели предпочтений и дообучение на основе обратной связи от человека.
Yi-Lightning использует гибридную стратегию параллелизма, комбинируя экспертный параллелизм и конвейерный параллелизм. Это позволяет оптимизировать использование памяти и распределение нагрузки на устройства.
Мы внедрили высокопроизводительный движок инференса, оптимизированный для LLM, что позволяет значительно сократить потребление ресурсов и повысить эффективность инференса. Ключевые оптимизации включают асинхронное планирование на уровне движка и оптимизацию квантования FP8.
Мы применили многоуровневый подход к оптимизации производительности, который включает в себя проактивные и реактивные механизмы обнаружения неисправностей, а также асинхронное контрольное сохранение. Это обеспечивает высокую доступность и эффективность работы модели.
С учетом растущих возможностей больших языковых моделей крайне важно обеспечить их безопасную и ответственную эксплуатацию. Мы разработали RAISE, комплексную структуру безопасности, которая охватывает весь жизненный цикл модели, от разработки до развертывания.
RAISE состоит из четырех компонентов, соответствующих этапам предобучения, послеобучения и обработки ввода/вывода во время инференса. Эти компоненты обеспечивают надежные механизмы безопасности, минимизируя потенциальные риски и угрозы.
Yi-Lightning продемонстрировал конкурентоспособные результаты на различных публичных академических бенчмарках. Мы наблюдаем заметное расхождение между результатами академических бенчмарков и реальными человеческими предпочтениями, что подчеркивает необходимость пересмотра роли традиционных бенчмарков в оценке моделей.
Yi-Lightning представляет собой значительный шаг вперед в разработке больших языковых моделей, обеспечивая высокую производительность, безопасность и практическую полезность. Наша работа подчеркивает важность интеграции технологий, ориентированных на человека, в процесс обучения моделей, чтобы создать более интеллектуальные и мощные системы ИИ для практического применения.