Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "ner"

WikiNER-fr-gold: Создание золотого стандарта для французского NER корпуса

В данной статье мы рассматриваем качество корпуса WikiNER, многоязычного корпуса для распознавания именованных сущностей, и предлагаем его консолидированную версию. Аннотация WikiNER была выполнена в полуавтоматическом режиме, то есть без последующей ручной проверки. Такой корпус называется серебряным стандартом. В данной работе мы представляем WikiNER-fr-gold, который является переработанной версией французской части WikiNER. Наш корпус состоит из случайно выбранных 20% исходного французского подкорпуса (26 818 предложений с 700 тысячами токенов). Мы начинаем с обобщения типов сущностей, включенных в каждую категорию, чтобы определить руководство по аннотации, а затем переходим к пересмотру корпуса. В заключение мы представляем анализ ошибок и несоответствий, обнаруженных в корпусе WikiNER-fr, и обсуждаем возможные направления будущих исследований.