Открытый датасет RedPajama для обучения больших языковых моделей

В последние годы большие языковые модели (LLM) стали краеугольным камнем в области искусственного интеллекта, науки и общества в целом. Однако, несмотря на их важность, стратегии составления и фильтрации данных для обучения этих моделей остаются в значительной степени неясными. Многие ведущие модели не предоставляют прозрачной информации о процессе курирования данных и разработки моделей, что создает препятствия для создания полностью открытых языковых моделей. В этом контексте мы представляем датасет RedPajama, который стремится решить три основные проблемы, связанные с данными, для продвижения открытых языковых моделей:

Прозрачность: Документация и публичное раскрытие всех аспектов курирования данных.
Доступность больших объемов качественных данных: Обеспечение доступа к обширным наборам данных высокого качества.
Доступность артефактов и метаданных: Предоставление метаданных и артефактов для анализа и курирования датасетов.

RedPajama-V1: Открытое воспроизведение датасета для обучения LLaMA

RedPajama-V1 - это наша первая попытка создать открытый датасет, который воспроизводит обучающие данные, использованные для первого поколения моделей LLaMA. Этот датасет включает данные из семи различных источников:

CommonCrawl: Мы использовали пять снимков CommonCrawl с 2017 по 2020 год, обработанных с помощью пайплайна CCNet для фильтрации и классификации качества.
C4: Включает разнообразные версии CommonCrawl, предоставленные Allen AI на Hugging Face Hub.
GitHub: Содержит проекты, распространяемые под лицензиями Apache, BSD и MIT, с применением эвристик для фильтрации низкокачественных файлов.
Wikipedia: Используются дампы Википедии на 20 языках с удалением гиперссылок и других элементов форматирования.
Gutenberg и Books3: Книжные корпуса из проекта Гутенберга и Books3 из Pile, с удалением дубликатов с помощью SimHash.
ArXiv: Обработанные LaTeX-файлы с удалением преамбул, комментариев и библиографии.
StackExchange: Данные из 28 крупнейших сайтов Stack Exchange, с удалением HTML-тегов и сортировкой ответов по рейтингу.

Обучение моделей RedPajama-INCITE

Для оценки качества RedPajama-V1 мы обучили семейство языковых моделей RedPajama-INCITE на суперкомпьютере Summit в Oak Ridge National Lab. Эти модели включают базовые и инструкционно-настроенные модели с 3 и 7 миллиардами параметров. Мы столкнулись с несколькими техническими вызовами, включая:

Архитектура IBM Power9: Необходимость компиляции PyTorch и других зависимостей для поддержки Power9.
Ограничения GPU: Использование V100 GPU, которые не поддерживают тип данных bf16, что потребовало использования fp16 и масштабирования потерь.
Ограниченная параллельность: Ограничения в использовании параллелизма из-за медленных интерконнектов и необходимости делить ресурсы с другими проектами.

Оценка производительности

Наши модели RedPajama-INCITE показали хорошую производительность на различных бенчмарках:

3B модель: Превзошла модели подобного размера, такие как GPT-Neo и Pythia-2.8B, на HELM и LM Evaluation Harness.
7B модель: Была на 1.0 пункта позади Falcon-7B и на 4.1 пункта позади Llama-7B на HELM-classic, но показала сопоставимые результаты на задачах, требующих прямого генерации ответов.

RedPajama-V2: Масштабный веб-датасет

RedPajama-V2 представляет собой новый подход, фокусируясь исключительно на веб-данных. Этот датасет включает:

Обработка данных: Использование пайплайна CCNet для обработки данных CommonCrawl с 2014 по апрель 2023 года, с сохранением всех перплексийных бакетов и включением данных на пяти языках (английский, французский, немецкий, итальянский и испанский).
Сигналы качества: Предоставление более 40 сигналов качества для каждого документа, включая меры натуральности языка, повторяемости текста, содержания и ML-эвристики.

Статистика датасета

RedPajama-V2 состоит из более чем 113 миллиардов документов, охватывающих пять языков. Датасет разделен на три категории по перплексии (head, middle, tail), с документами в категориях "head" и "middle" обычно содержащими более качественный текст.

Адаптация и анализ

Мы провели серию адаптаций датасета, исследуя, как различные фильтры качества влияют на производительность модели:

Фильтрация на основе правил: Применение правил из C4 и Gopher для улучшения качества данных.
ML-эвристики: Использование классификаторов fastText и весов DSIR для оценки важности документов.

Результаты показали, что фильтрация с использованием Gopher-правил и ML-эвристик приводит к созданию датасетов, которые обеспечивают высокую производительность моделей на различных задачах.

Заключение

RedPajama предлагает уникальный ресурс для исследователей и разработчиков, стремящихся к созданию высококачественных языковых моделей. С его помощью можно исследовать новые методы фильтрации и курирования данных, что способствует развитию более прозрачных и эффективных моделей. Мы надеемся, что RedPajama станет основой для дальнейших инноваций в области обработки естественного языка и искусственного интеллекта.

Статья на arxiv Оригинал pdf model metadata quality

Ай Дайджест