Свежая выжимка ml и AI статей - каждый день
Разрешение смысла слов (WSD) — это задача, заключающаяся в том, чтобы сопоставить слово в данном контексте с его наиболее подходящим значением из набора возможных кандидатов. В последние годы, благодаря достижениям в области предобученных трансформеров, системы WSD достигли значительных успехов, показав результаты, сопоставимые с оценками межэкспертного согласия. Однако, несмотря на эти достижения, задача WSD все еще сталкивается с трудностями в нахождении практических приложений. Одной из причин этого является сложность применения WSD в неконтролируемых условиях, где предполагается, что все необходимые данные уже доступны.
В данной статье мы представляем новую задачу, названную Word Sense Linking (WSL), которая требует от системы не только определения, какие фрагменты текста нужно разъяснить, но и связывания их с наиболее подходящими значениями из справочной семантической базы. Мы также предлагаем архитектуру на основе трансформеров для решения этой задачи и проводим обширную оценку как нашей модели, так и существующих систем WSD, адаптированных к WSL.
Word Sense Linking (WSL) — это задача идентификации и разъяснения всех фрагментов входного текста с их наиболее подходящими значениями, выбранными из справочной семантической базы. Формально, пусть ( t ) — это входной текст, а ( I ) — справочная база, содержащая набор значений. Тогда система WSL может быть представлена как функция ( f(t, I) ), которая выводит список троек ((s_i, e_i, g_i)), где каждая тройка представляет собой разъясненный фрагмент с индексами начала и конца фрагмента и соответствующим значением из базы.
WSL можно разбить на три подзадачи:
Например, в предложении "Водители автобусов зарабатывают на жизнь", на этапе CD могут быть идентифицированы фрагменты [водители, автобусов, зарабатывать, жизнь], а на этапе CG для слова "автобусов" могут быть предложены значения [транспортное средство, электрический проводник].
Мы предлагаем новую гибкую архитектуру для решения задачи WSL, основанную на парадигме "retriever-reader". Эта архитектура позволяет системе сначала генерировать кандидаты значений, а затем идентифицировать фрагменты текста для разъяснения.
Исходя из входного текста ( t ) и справочной базы ( I ), мы сначала выполняем CG на всем входном тексте, производя упорядоченный список уникальных кандидатов ( PC(t) ). Затем, используя контекстуализированные векторные представления как для текста, так и для кандидатов, мы позволяем классификатору определить индексы начала и конца каждого фрагмента в ( t ). Наконец, мы выполняем WSD для идентифицированных фрагментов, связывая каждый с наиболее подходящим значением из ( PC(t) ).
Retriever: На этапе CG мы реализуем процесс генерации кандидатов с помощью плотного извлечения информации. Мы используем трансформерный кодировщик для вычисления векторных представлений текста и значений, что позволяет нам ранжировать все значения и извлекать топ ( k ) среди них.
Reader: На этапе CD и WSD мы формулируем задачу как многозадачную многометочную классификацию. Мы конкатенируем текст и кандидаты в единую последовательность, что позволяет модели учитывать контекст всех кандидатов одновременно.
Мы провели оценку нашей модели и изучили ее поведение в условиях, когда мы постепенно ослабляем предположения, лежащие в основе WSD. Мы начали с оценки на стандартных наборах данных WSD, а затем перешли к WSL, постепенно убирая предположение о наличии идеального оракула для CD и CG.
Наша модель показала значительно лучшие результаты по сравнению с существующими системами WSD, особенно в условиях, когда предположения о наличии оракула были ослаблены. Мы обнаружили, что естественные расширения систем WSD к WSL приводят к значительным падениям производительности, тогда как предложенная нами архитектура демонстрирует гораздо большую устойчивость и consistently outperform.
В данной работе мы представили задачу Word Sense Linking, которая лучше отражает условия реальных приложений по сравнению с традиционной задачей WSD. Мы также предложили новую архитектуру для решения этой задачи и провели обширную оценку ее производительности. Наши результаты подчеркивают важные, но часто игнорируемые проблемы, возникающие при масштабировании WSD в неконтролируемых условиях.
Наша работа открывает новые горизонты для интеграции лексической семантики в практические приложения, такие как нейронный машинный перевод и извлечение информации. В будущем мы планируем исследовать расширение WSL на многоязычные настройки и анализировать использование WSL в различных приложениях.