Открытый датасет RedPajama для обучения больших языковых моделей
В последние годы большие языковые модели (LLM) стали краеугольным камнем в области искусственного интеллекта, науки и общества в целом. Однако, несмотря на их важность, стратегии составления и фильтрации данных для обучения этих моделей остаются в значительной степени неясными. Многие ведущие модели не предоставляют прозрачной информации о процессе курирования данных и разработки моделей, что создает препятствия для создания полностью открытых языковых моделей. В этом контексте мы представляем датасет RedPajama, который стремится решить три основные проблемы, связанные с данными, для продвижения открытых языковых моделей:
- Прозрачность: Документация и публичное раскрытие всех аспектов курирования данных.
- Доступность больших объемов качественных данных: Обеспечение доступа к обширным наборам данных высокого качества.
- Доступность артефактов и метаданных: Предоставление метаданных и артефактов для анализа и курирования датасетов.
RedPajama-V1: Открытое воспроизведение датасета для обучения LLaMA
RedPajama-V1 - это наша первая попытка создать открытый датасет, который воспроизводит обучающие данные, использованные для первого поколения моделей LLaMA. Этот датасет включает данные из семи различных источников:
- CommonCrawl: Мы использовали пять снимков CommonCrawl с 2017 по 2020 год, обработанных с помощью пайплайна CCNet для фильтрации и классификации качества.
- C4: Включает разнообразные версии CommonCrawl, предоставленные Allen AI на Hugging Face Hub.
- GitHub: Содержит проекты, распространяемые под лицензиями Apache, BSD и MIT, с применением эвристик для фильтрации низкокачественных файлов.
- Wikipedia: Используются дампы Википедии на 20 языках с удалением гиперссылок и других элементов форматирования.
- Gutenberg и Books3: Книжные корпуса из проекта Гутенберга и Books3 из Pile, с удалением дубликатов с помощью SimHash.
- ArXiv: Обработанные LaTeX-файлы с удалением преамбул, комментариев и библиографии.
- StackExchange: Данные из 28 крупнейших сайтов Stack Exchange, с удалением HTML-тегов и сортировкой ответов по рейтингу.
Обучение моделей RedPajama-INCITE
Для оценки качества RedPajama-V1 мы обучили семейство языковых моделей RedPajama-INCITE на суперкомпьютере Summit в Oak Ridge National Lab. Эти модели включают базовые и инструкционно-настроенные модели с 3 и 7 миллиардами параметров. Мы столкнулись с несколькими техническими вызовами, включая:
- Архитектура IBM Power9: Необходимость компиляции PyTorch и других зависимостей для поддержки Power9.
- Ограничения GPU: Использование V100 GPU, которые не поддерживают тип данных bf16, что потребовало использования fp16 и масштабирования потерь.
- Ограниченная параллельность: Ограничения в использовании параллелизма из-за медленных интерконнектов и необходимости делить ресурсы с другими проектами.
Оценка производительности
Наши модели RedPajama-INCITE показали хорошую производительность на различных бенчмарках:
- 3B модель: Превзошла модели подобного размера, такие как GPT-Neo и Pythia-2.8B, на HELM и LM Evaluation Harness.
- 7B модель: Была на 1.0 пункта позади Falcon-7B и на 4.1 пункта позади Llama-7B на HELM-classic, но показала сопоставимые результаты на задачах, требующих прямого генерации ответов.
RedPajama-V2: Масштабный веб-датасет
RedPajama-V2 представляет собой новый подход, фокусируясь исключительно на веб-данных. Этот датасет включает:
- Обработка данных: Использование пайплайна CCNet для обработки данных CommonCrawl с 2014 по апрель 2023 года, с сохранением всех перплексийных бакетов и включением данных на пяти языках (английский, французский, немецкий, итальянский и испанский).
- Сигналы качества: Предоставление более 40 сигналов качества для каждого документа, включая меры натуральности языка, повторяемости текста, содержания и ML-эвристики.
Статистика датасета
RedPajama-V2 состоит из более чем 113 миллиардов документов, охватывающих пять языков. Датасет разделен на три категории по перплексии (head, middle, tail), с документами в категориях "head" и "middle" обычно содержащими более качественный текст.
Адаптация и анализ
Мы провели серию адаптаций датасета, исследуя, как различные фильтры качества влияют на производительность модели:
- Фильтрация на основе правил: Применение правил из C4 и Gopher для улучшения качества данных.
- ML-эвристики: Использование классификаторов fastText и весов DSIR для оценки важности документов.
Результаты показали, что фильтрация с использованием Gopher-правил и ML-эвристик приводит к созданию датасетов, которые обеспечивают высокую производительность моделей на различных задачах.
Заключение
RedPajama предлагает уникальный ресурс для исследователей и разработчиков, стремящихся к созданию высококачественных языковых моделей. С его помощью можно исследовать новые методы фильтрации и курирования данных, что способствует развитию более прозрачных и эффективных моделей. Мы надеемся, что RedPajama станет основой для дальнейших инноваций в области обработки естественного языка и искусственного интеллекта.