Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

WikiNER-fr-gold: Создание золотого стандарта для французского NER корпуса

В мире обработки естественного языка (NLP) задача распознавания именованных сущностей (NER) играет ключевую роль. NER направлена на идентификацию и классификацию сущностей, таких как имена людей, места, организации и прочее, в неструктурированном тексте. Для обучения и оценки NER систем требуются аннотированные корпуса, которые служат эталонными данными. Однако, качество этих корпусов может значительно варьироваться, особенно когда речь идет о "серебряных стандартах" (silver standard), которые создаются с использованием автоматических методов без последующей ручной проверки.

В данной статье мы рассмотрим процесс создания и анализа WikiNER-fr-gold, золотого стандарта французского корпуса WikiNER, который был создан на основе полуавтоматически аннотированного корпуса WikiNER. Мы обсудим, как была проведена коррекция ошибок, какие типы сущностей включены, и какие проблемы были выявлены в процессе.

Производство оригинальных аннотаций WikiNER

Оригинальный корпус WikiNER был создан с использованием гиперссылок в статьях Википедии. Если в предложении упоминается сущность, для которой существует соответствующая страница в Википедии, то фраза, описывающая эту сущность, связывается с этой страницей через гиперссылку. Этот процесс включает в себя два основных этапа:

  1. Классификация страниц Википедии - Для каждого из 10 языков, включенных в WikiNER, был создан обучающий корпус, на котором тренировалась модель классификации. Для французского языка этот корпус состоял примерно из 2500 статей, аннотированных по расширенной схеме BBN.

  2. Аннотация упоминаний в статьях Википедии - Используя обученную модель, категории страниц Википедии проецировались на гиперссылки в других статьях, создавая первичные аннотации. В Википедии только первое упоминание сущности получает гиперссылку, поэтому были предложены стратегии для определения других упоминаний в тексте.

Методы классификации

Авторы сравнили несколько стратегий классификации, выбрав в итоге логистическую регрессию с F1-скором 94%. Эта модель была использована для классификации оставшихся страниц Википедии.

Уровни фильтрации

Было предложено несколько уровней фильтрации для определения упоминаний, от менее строгих до более строгих, что позволяло балансировать между качеством аннотации и охватом сущностей. В нашем исследовании использовалась версия WIKI-2 с уровнем фильтрации 2, как компромисс между качеством и количеством аннотированных сущностей.

Обзор корпуса

Определение категорий сущностей

Корпус WikiNER включает четыре основные категории сущностей:

  • PER (Person) - Имена людей, вымышленные персонажи, национальность и этническая принадлежность.
  • LOC (Location) - Страны, регионы, известные здания, природные ландшафты, транспортные сети и небесные тела.
  • ORG (Organization) - Организации, институты, правительственные органы, политические партии, компании, спортивные команды и образовательные учреждения.
  • MISC (Miscellaneous) - Титулы работ, события, исторические периоды, программное обеспечение, документы и бренды.

Формат аннотаций и инструменты

Аннотации в WikiNER-fr-gold представлены в формате BIOES, где:

  • B - начало сущности,
  • I - внутренняя часть сущности,
  • E - конец сущности,
  • S - одиночное слово, представляющее сущность,
  • O - токен вне сущности.

Для визуализации и аннотации использовался специализированный инструмент, позволяющий настраивать метки и их визуальное представление.

Анализ ошибок и коррекция

В процессе ревизии корпуса были выявлены несколько типов ошибок:

  1. Несогласованное определение гиперссылок - Различные стандарты гиперссылок в Википедии приводили к неоднозначным аннотациям. Например, в фразе "la France", некоторые аннотировали только "France", а другие - "la France".

  2. Гиперссылки, не соответствующие определению именованной сущности - В Википедии могут существовать страницы, которые не соответствуют критериям именованных сущностей, например, страницы о взаимоотношениях между странами или исторических событиях.

  3. Сущности сложного характера - Некоторые сущности, такие как геополитические образования, могут быть интерпретированы по-разному в зависимости от контекста, что затрудняет их однозначную классификацию.

Заключение

WikiNER-fr-gold представляет собой значительный шаг вперед в создании качественного ресурса для NER на французском языке. Этот золотой стандарт корпуса, состоящий из 20% оригинального WikiNER-fr, был тщательно проверен и скорректирован вручную, что позволяет более точно обучать и оценивать NER системы. В будущем планируется расширение корпуса и его адаптация к другим языкам, а также дальнейшая автоматизация процесса коррекции для улучшения качества и охвата аннотаций.