Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "whitening"

Пространство вложений слов: от теории к практике

Пространство вложений слов в нейронных моделях искажено, и исправление этого может улучшить производительность задач. Мы указываем, что большинство подходов к моделированию, исправлению и измерению симметрии пространства вложений неявно предполагают, что частоты слов равномерны; на самом деле, частоты слов следуют крайне неравномерному распределению, известному как закон Ципфа. Удивительно, но простое применение взвешенного по эмпирической частоте слов PCA отбеливания, соответствующего закону Ципфа, значительно улучшает производительность задач, превосходя установленные базовые показатели. С теоретической точки зрения, как наш подход, так и существующие методы можно четко категоризировать: представления слов распределены в соответствии с экспоненциальной семьей с либо равномерными, либо цепфиановыми базовыми мерами. Приняв последний подход, мы можем естественным образом выделить информативные слова с низкой частотой с точки зрения их векторной нормы, что становится очевидным с информационно-геометрической точки зрения, а также с точки зрения функций потерь для несбалансированной классификации. Кроме того, наша теория подтверждает, что популярные методы обработки естественного языка, такие как отрицательная выборка skip-gram, WhiteningBERT и языковые модели без головы, работают хорошо именно потому, что их словесные вложения закодировали эмпирическую частоту слов в лежащую в основе вероятностную модель.