Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "keyphrase"

Долгосрочное извлечение ключевых фраз для длинных документов: Введение в LongKey

В эпоху информационного перегрузки ручная аннотация обширного и растущего корпуса документов и научных статей становится все менее практичной. Автоматизированное извлечение ключевых фраз решает эту задачу, идентифицируя представительные термины в текстах. Однако большинство существующих методов ориентированы на короткие документы (до 512 токенов), оставляя пробел в обработке длинных контекстов. В этой статье мы представляем LongKey, новую структуру для извлечения ключевых фраз из длинных документов, которая использует языковую модель на основе кодировщика для захвата сложных аспектов текста. LongKey использует эмбеддер с максимальным пуллингом для улучшения представления кандидатов на ключевые фразы. Проверенный на обширных наборах данных LDKP и шести разнообразных, невиданных наборах данных, LongKey постоянно превосходит существующие методы извлечения ключевых фраз на основе ненадзорного обучения и языковых моделей. Наши данные демонстрируют универсальность LongKey и его превосходную производительность, что является прогрессом в извлечении ключевых фраз для различных длин текстов и областей.