Повышение способности генерации длинных текстов с помощью LLM
Недавние достижения в области крупных языковых моделей (LLM) значительно улучшили их способность обрабатывать длинные контексты, однако все еще существует заметный пробел в генерации длинных, согласованных выходных данных. Это ограничение проистекает из разрыва в обучении, где на этапе предварительного обучения отсутствуют эффективные инструкции для генерации длинных текстов, а данные после обучения в основном состоят из коротких пар запрос-ответ. Современные подходы, такие как обратный перевод инструкций и имитация поведения, сталкиваются с проблемами, включая качество данных, проблемы с авторскими правами и ограничения на использование проприетарных моделей. В данной статье мы представляем инновационную итерационную платформу обучения под названием Self-Lengthen, которая использует только внутренние знания и навыки LLM, не требуя дополнительных данных или проприетарных моделей. Платформа включает две роли: Генератор и Расширитель. Генератор создает первоначальный ответ, который затем разделяется и расширяется Расширителем. Этот процесс приводит к созданию нового, более длинного ответа, который используется для итерационного обучения как Генератора, так и Расширителя. В результате этого процесса модели постепенно обучаются обрабатывать все более длинные ответы. Эксперименты на эталонных тестах и оценки экспертов показывают, что Self-Lengthen превосходит существующие методы в генерации длинных текстов, когда применяется к ведущим открытым LLM, таким как Qwen2 и LLaMA3. Наш код доступен для общественности по адресу https://github.com/QwenLM/Self-Lengthen.