Ай Дайджест - категория cleaning

GlotCC: Открытый Корпус и Пайплайн для Обработки Данных на Малоизученных Языках

Потребность в крупных текстовых корпусах возросла с появлением предобученных языковых моделей и, в частности, с открытием законов масштабирования для этих моделей. Большинство доступных корпусов содержат достаточное количество данных только для языков с большими доминирующими сообществами. Однако, нет корпуса, который бы (i) охватывал широкий спектр языков меньшинств; (ii) создавался с использованием открытого и воспроизводимого конвейера; и (iii) был тщательно очищен от шума, что делает его надёжным для использования. Мы представляем GlotCC, чистый, документный, общедоменный корпус объемом 2 ТБ, созданный на основе CommonCrawl, который охватывает более 1000 языков. Мы делаем доступными GlotCC и систему, используемую для его создания, включая конвейер, модель идентификации языка и фильтры, для научного сообщества. Корпус v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Конвейер v. 3.0 https://github.com/cisnlp/GlotCC.

2024-11-01language models scaling