Ай Дайджест - категория corpora

M2RC-EVAL: Массивно мультиязыковая оценка завершения кода на уровне репозитория

Завершение кода на уровне репозитория привлекло большое внимание в области инженерии программного обеспечения, и были представлены несколько эталонных наборов данных. Однако, существующие эталоны для завершения кода на уровне репозитория обычно охватывают ограниченное количество языков (менее 5), что не позволяет оценить общие способности интеллектуального анализа кода для существующих моделей больших языковых моделей (LLMs). Кроме того, эти эталоны обычно сообщают средние показатели по всем языкам, игнорируя детализированные способности в различных сценариях завершения кода. Поэтому, для содействия исследованиям LLMs для кода в многоязычных сценариях, мы предлагаем массово многоязычный эталонный набор данных для завершения кода на уровне репозитория, охватывающий 18 языков программирования (названный M2RC-EVAL), а также два типа детализированных аннотаций (на уровне блоков и на семантическом уровне) для различных сценариев завершения. Эти аннотации мы получаем на основе разбора абстрактного синтаксического дерева. Более того, мы также собрали массивный многоязычный набор инструкций M2RC-INSTRUCT, чтобы улучшить способности завершения кода на уровне репозитория у существующих LLMs. Комплексные экспериментальные результаты демонстрируют эффективность наших M2RC-EVAL и M2RC-INSTRUCT.

2024-11-04corpora language completion

GlotCC: Открытый Корпус и Пайплайн для Обработки Данных на Малоизученных Языках

Потребность в крупных текстовых корпусах возросла с появлением предобученных языковых моделей и, в частности, с открытием законов масштабирования для этих моделей. Большинство доступных корпусов содержат достаточное количество данных только для языков с большими доминирующими сообществами. Однако, нет корпуса, который бы (i) охватывал широкий спектр языков меньшинств; (ii) создавался с использованием открытого и воспроизводимого конвейера; и (iii) был тщательно очищен от шума, что делает его надёжным для использования. Мы представляем GlotCC, чистый, документный, общедоменный корпус объемом 2 ТБ, созданный на основе CommonCrawl, который охватывает более 1000 языков. Мы делаем доступными GlotCC и систему, используемую для его создания, включая конвейер, модель идентификации языка и фильтры, для научного сообщества. Корпус v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Конвейер v. 3.0 https://github.com/cisnlp/GlotCC.

2024-11-01models pipeline scaling