Пространство вложений слов: от теории к практике

Современные методы обработки естественного языка (NLP) основаны на представлении дискретных слов в виде непрерывных векторов, что позволяет значительно улучшить производительность различных задач. Статические и динамические вложения слов, а также модели причинного языка, такие как LLM (Large Language Models), вызвали парадигмальный сдвиг в NLP, предоставив мощные инструменты для анализа и обработки текста.

Однако, несмотря на успехи, было обнаружено, что пространство вложений слов часто "искажено" (skewed), и коррекция этого искажения может привести к улучшению результатов на задачах. Исследования показали, что изотропность пространства вложений, т.е. равномерное распределение векторов в пространстве, является одним из ключевых факторов улучшения дискриминативности моделей.

Проблема несоответствия частот слов

Большинство подходов к моделированию, коррекции и измерению симметрии пространства вложений слов неявно предполагают, что частоты слов распределены равномерно. Однако, в реальности, частоты слов следуют закону Ципфа, который описывает распределение слов по частотам как сильно неравномерное. Это приводит к значительному разрыву между методологией и фактическим использованием слов в языке.

Закон Ципфа

Закон Ципфа утверждает, что частота использования слов в любом большом корпусе текста примерно обратно пропорциональна их рангу. Например, слово "the" будет встречаться гораздо чаще, чем слово "isotropy", и их частоты могут отличаться на порядки.

Примеры несоответствия

Для иллюстрации проблемы, рассмотрим фразу "perform natural language processing in a natural way". В этой фразе слово "natural" появляется дважды, но как тип слово учитывается только один раз. Это подчеркивает различие между типами и токенами, где тип представляет класс, а токен - конкретное использование слова в тексте.

Методы коррекции пространства вложений

Центрирование и выбеливание

Типичные методы коррекции пространства вложений включают центрирование и выбеливание (whitening). Центрирование подразумевает вычитание среднего вектора из каждого вектора вложения, чтобы сделать их центрированными. Выбеливание же включает в себя декорреляцию и нормализацию векторов, что делает их более равномерно распределенными в пространстве.

Проблемы с классическим центрированием

Классическое центрирование использует не взвешенное среднее, что предполагает равномерное распределение частот слов. Однако, это не соответствует реальности, где слова следуют закону Ципфа. Это приводит к тому, что "средний" вектор смещен в сторону высокочастотных слов, что может исказить пространство вложений.

Zipfian Whitening

Предлагаемый метод, названный Zipfian Whitening, учитывает эмпирические частоты слов при вычислении ожидаемых значений. Это позволяет корректировать пространство вложений таким образом, чтобы оно было более симметричным и соответствовало реальному распределению слов.

Алгоритм Zipfian Whitening

Центрирование по Ципфу: Вычисляется взвешенное среднее векторов вложений с учетом их частот.
```
b_µ = Σ[w_i ∈ V] p(w_i) * w_i
```
Декорреляция и стандартизация: Используется SVD (Singular Value Decomposition) для декорреляции и стандартизации векторов.
```
W_p = [√p(w_1) * w_1^T, ..., √p(w_{|V|}) * w_{|V|}^T]^T
U, Σ, V^T = SVD(W_p)
```
Преобразование векторов: Векторы вложений преобразуются с использованием матриц, полученных из SVD.
```
e_w_i = w_i * V * Σ^(-1)
```

Теоретическое обоснование

Экспоненциальные семейства распределений

Zipfian Whitening можно интерпретировать через призму экспоненциальных семейств распределений. В этом контексте, вложения слов могут быть рассмотрены как случайные векторы, распределенные по экспоненциальному семейству с базовым мерой, соответствующей закону Ципфа.

Базовая мера

Базовая мера π(w) в экспоненциальном семействе может быть выбрана либо равномерной, либо соответствующей закону Ципфа. Последний вариант более точно отражает реальную частоту слов в языке.

Норма вектора и информационное содержание

Zipfian Whitening приводит к тому, что норма вектора вложения слова отражает его информационное содержание. Слова с большим информационным содержанием имеют более длинные векторы, что логично, поскольку они менее часты и несут больше информации.

Ошибки и потери

Методы, основанные на Zipfian Whitening, акцентируют внимание на редких словах, что соответствует принципу логит-корректировки в задачах несбалансированной классификации. Это позволяет моделям лучше учитывать низкочастотные слова, что важно для многих задач NLP.

Эмпирическая оценка

Результаты на задачах

Эмпирические тесты показали, что Zipfian Whitening значительно улучшает производительность на стандартных задачах, таких как STS-B (Semantic Textual Similarity Benchmark). Метод превосходит не только стандартные методы центрирования и выбеливания, но и сильные базовые методы, специально разработанные для создания мощных векторов предложений.

Оценка симметрии пространства

Для оценки симметрии пространства вложений были предложены метрики, учитывающие эмпирические частоты слов. Эти метрики показали высокую корреляцию с производительностью на задачах, что подтверждает их полезность для оценки качества вложений.

Заключение

Zipfian Whitening предлагает новый подход к коррекции пространства вложений слов, который учитывает реальные частоты слов, следуя закону Ципфа. Этот метод не только теоретически обоснован, но и эмпирически подтвержден, показывая значительное улучшение производительности на различных задачах NLP. В будущем, дальнейшее исследование и разработка методов, основанных на Zipfian Whitening, могут привести к еще более эффективным моделям обработки естественного языка, способным лучше улавливать нюансы языка.

Статья на arxiv Оригинал pdf pca embedding model

Ай Дайджест