Свежая выжимка ml и AI статей - каждый день
В современном мире, где искусственный интеллект (AI) и машинное обучение (ML) становятся неотъемлемой частью технологического ландшафта, особенно важно обеспечить доступность инструментов и данных для всех языков, включая малоизученные. В этой статье мы рассмотрим проект GlotCC, который представляет собой важный шаг в этом направлении, предлагая открытый, широко охваченный корпус данных, извлеченный из CommonCrawl, и пайплайн для обработки текстов на более чем 1000 языках.
С развитием предобученных языковых моделей (LLM) и открытием законов масштабирования для этих моделей, потребность в больших текстовых корпусах резко возросла. Однако большинство существующих корпусов предоставляют достаточное количество данных только для языков с крупными сообществами. GlotCC был создан для решения этой проблемы, предоставляя:
GlotCC использует данные из CommonCrawl, что является одним из крупнейших источников веб-данных. Этот выбор обусловлен тем, что CommonCrawl предоставляет огромное количество текстов на множестве языков, что идеально подходит для создания обширного и разнообразного корпуса.
Процесс создания GlotCC включает несколько ключевых этапов:
Извлечение данных: Используется пайплайн Ungoliant для извлечения текста из CommonCrawl.
Идентификация языка (LID): Для классификации текстов по языкам применяется модель GlotLID v3.0, которая способна распознавать более 2000 языковых меток. Эта модель была разработана для преодоления ограничений существующих LID моделей, таких как ошибки из-за коллизий хэшей и ограниченное покрытие языков.
Фильтрация шума: Введены несколько техник фильтрации для удаления общего веб-шума, контента, напоминающего списки, документов с повторяющимися словами, а также документов с неоднозначным языковым содержанием.
Аудит качества: Проводится аудит случайных выборок из 653 языковых подкорпусов, чтобы убедиться, что данные соответствуют языку и чисты от шума.
GlotLID v3.0 - это расширенная версия модели идентификации языка, которая:
GlotLID v3.0 показывает значительные улучшения по сравнению с предыдущими версиями:
GlotCC предоставляется как документ-уровневый корпус, что делает его пригодным для предобучения генеративных языковых моделей и других технологий, требующих информации за пределами уровня предложения. Он также включает метаданные, такие как временные метки, URL, предупреждения о качестве, категории содержания и другие данные, которые могут быть полезны для исследователей и разработчиков.
GlotCC представляет собой значительный шаг вперед в области обработки естественного языка для малоизученных языков. Предоставляя открытый доступ к обширному корпусу данных и пайплайну его создания, проект способствует включению большего числа языков в AI и ML исследования, что может привести к более инклюзивному и разнообразному языковому ландшафту в технологиях.
Проект GlotCC и его инструментарий доступны для исследовательского сообщества, что открывает новые возможности для изучения и разработки в области языковых технологий, делая их более доступными и репрезентативными для всех языков мира.