GlotCC: Открытый Корпус и Пайплайн для Обработки Данных на Малоизученных Языках

В современном мире, где искусственный интеллект (AI) и машинное обучение (ML) становятся неотъемлемой частью технологического ландшафта, особенно важно обеспечить доступность инструментов и данных для всех языков, включая малоизученные. В этой статье мы рассмотрим проект GlotCC, который представляет собой важный шаг в этом направлении, предлагая открытый, широко охваченный корпус данных, извлеченный из CommonCrawl, и пайплайн для обработки текстов на более чем 1000 языках.

Введение в GlotCC

С развитием предобученных языковых моделей (LLM) и открытием законов масштабирования для этих моделей, потребность в больших текстовых корпусах резко возросла. Однако большинство существующих корпусов предоставляют достаточное количество данных только для языков с крупными сообществами. GlotCC был создан для решения этой проблемы, предоставляя:

Широкий спектр языков: Корпус охватывает более 1000 языков, включая множество малоизученных.
Открытый и воспроизводимый пайплайн: Все этапы обработки данных открыты для исследовательского сообщества, что позволяет воспроизвести и адаптировать процесс.
Чистка от шума: Данные тщательно очищаются от шума, что делает их надежными для использования в различных исследованиях и разработках.

Создание GlotCC

Источники данных

GlotCC использует данные из CommonCrawl, что является одним из крупнейших источников веб-данных. Этот выбор обусловлен тем, что CommonCrawl предоставляет огромное количество текстов на множестве языков, что идеально подходит для создания обширного и разнообразного корпуса.

Пайплайн обработки

Процесс создания GlotCC включает несколько ключевых этапов:

Извлечение данных: Используется пайплайн Ungoliant для извлечения текста из CommonCrawl.
Идентификация языка (LID): Для классификации текстов по языкам применяется модель GlotLID v3.0, которая способна распознавать более 2000 языковых меток. Эта модель была разработана для преодоления ограничений существующих LID моделей, таких как ошибки из-за коллизий хэшей и ограниченное покрытие языков.
Фильтрация шума: Введены несколько техник фильтрации для удаления общего веб-шума, контента, напоминающего списки, документов с повторяющимися словами, а также документов с неоднозначным языковым содержанием.
Аудит качества: Проводится аудит случайных выборок из 653 языковых подкорпусов, чтобы убедиться, что данные соответствуют языку и чисты от шума.

GlotLID v3.0

GlotLID v3.0 - это расширенная версия модели идентификации языка, которая:

Увеличивает покрытие языков: Включает новые ресурсы для африканских, уральских, индонезийских, индийских и других языков.
Улучшает отклонение неизвестных языков: Вводит метки "UND" для обработки неизвестных языков и скриптов, не встречавшихся в обучающей выборке.
Удаляет шум: Создает обучающие данные для различных типов шума, включая ошибки в PDF, Mojibake и другие.

Оценка качества

GlotLID v3.0 показывает значительные улучшения по сравнению с предыдущими версиями:

F1 Score: 0.991 на GlotTest, 0.882 на UDHR, и 0.967 на FLORES-200.
False Positive Rate (FPR): Очень низкий, что указывает на высокую точность модели.

Использование GlotCC

GlotCC предоставляется как документ-уровневый корпус, что делает его пригодным для предобучения генеративных языковых моделей и других технологий, требующих информации за пределами уровня предложения. Он также включает метаданные, такие как временные метки, URL, предупреждения о качестве, категории содержания и другие данные, которые могут быть полезны для исследователей и разработчиков.

Заключение

GlotCC представляет собой значительный шаг вперед в области обработки естественного языка для малоизученных языков. Предоставляя открытый доступ к обширному корпусу данных и пайплайну его создания, проект способствует включению большего числа языков в AI и ML исследования, что может привести к более инклюзивному и разнообразному языковому ландшафту в технологиях.

Проект GlotCC и его инструментарий доступны для исследовательского сообщества, что открывает новые возможности для изучения и разработки в области языковых технологий, делая их более доступными и репрезентативными для всех языков мира.

Статья на arxiv Оригинал pdf models corpora cleaning

Ай Дайджест