Свежая выжимка ml и AI статей - каждый день
В мире обработки естественного языка (NLP) задача распознавания именованных сущностей (NER) играет ключевую роль. NER направлена на идентификацию и классификацию сущностей, таких как имена людей, места, организации и прочее, в неструктурированном тексте. Для обучения и оценки NER систем требуются аннотированные корпуса, которые служат эталонными данными. Однако, качество этих корпусов может значительно варьироваться, особенно когда речь идет о "серебряных стандартах" (silver standard), которые создаются с использованием автоматических методов без последующей ручной проверки.
В данной статье мы рассмотрим процесс создания и анализа WikiNER-fr-gold, золотого стандарта французского корпуса WikiNER, который был создан на основе полуавтоматически аннотированного корпуса WikiNER. Мы обсудим, как была проведена коррекция ошибок, какие типы сущностей включены, и какие проблемы были выявлены в процессе.
Оригинальный корпус WikiNER был создан с использованием гиперссылок в статьях Википедии. Если в предложении упоминается сущность, для которой существует соответствующая страница в Википедии, то фраза, описывающая эту сущность, связывается с этой страницей через гиперссылку. Этот процесс включает в себя два основных этапа:
Классификация страниц Википедии - Для каждого из 10 языков, включенных в WikiNER, был создан обучающий корпус, на котором тренировалась модель классификации. Для французского языка этот корпус состоял примерно из 2500 статей, аннотированных по расширенной схеме BBN.
Аннотация упоминаний в статьях Википедии - Используя обученную модель, категории страниц Википедии проецировались на гиперссылки в других статьях, создавая первичные аннотации. В Википедии только первое упоминание сущности получает гиперссылку, поэтому были предложены стратегии для определения других упоминаний в тексте.
Авторы сравнили несколько стратегий классификации, выбрав в итоге логистическую регрессию с F1-скором 94%. Эта модель была использована для классификации оставшихся страниц Википедии.
Было предложено несколько уровней фильтрации для определения упоминаний, от менее строгих до более строгих, что позволяло балансировать между качеством аннотации и охватом сущностей. В нашем исследовании использовалась версия WIKI-2 с уровнем фильтрации 2, как компромисс между качеством и количеством аннотированных сущностей.
Корпус WikiNER включает четыре основные категории сущностей:
Аннотации в WikiNER-fr-gold представлены в формате BIOES, где:
Для визуализации и аннотации использовался специализированный инструмент, позволяющий настраивать метки и их визуальное представление.
В процессе ревизии корпуса были выявлены несколько типов ошибок:
Несогласованное определение гиперссылок - Различные стандарты гиперссылок в Википедии приводили к неоднозначным аннотациям. Например, в фразе "la France", некоторые аннотировали только "France", а другие - "la France".
Гиперссылки, не соответствующие определению именованной сущности - В Википедии могут существовать страницы, которые не соответствуют критериям именованных сущностей, например, страницы о взаимоотношениях между странами или исторических событиях.
Сущности сложного характера - Некоторые сущности, такие как геополитические образования, могут быть интерпретированы по-разному в зависимости от контекста, что затрудняет их однозначную классификацию.
WikiNER-fr-gold представляет собой значительный шаг вперед в создании качественного ресурса для NER на французском языке. Этот золотой стандарт корпуса, состоящий из 20% оригинального WikiNER-fr, был тщательно проверен и скорректирован вручную, что позволяет более точно обучать и оценивать NER системы. В будущем планируется расширение корпуса и его адаптация к другим языкам, а также дальнейшая автоматизация процесса коррекции для улучшения качества и охвата аннотаций.