Я не знаю: явное моделирование неопределенности с помощью токена [IDK]

В последние годы большие языковые модели (LLM) стали важным инструментом в области обработки естественного языка. Они способны извлекать и генерировать текст, основываясь на огромных объемах данных, что позволяет им успешно справляться с различными задачами, от ответов на вопросы до создания текстов. Однако, несмотря на их впечатляющие возможности, LLM все еще подвержены так называемым "галлюцинациям" — ошибкам, когда модель генерирует фактически неверные или вводящие в заблуждение ответы. В данной статье мы рассмотрим новый подход к решению этой проблемы, предложенный в работе "I, Don’t, Know: Explicit Modeling of Uncertainty with an [IDK] Token" (Я не знаю: явное моделирование неопределенности с помощью токена [IDK]).

Проблема галлюцинаций в LLM

Галлюцинации представляют собой серьезную проблему для LLM, так как они могут привести к созданию неверной информации. Модели могут генерировать фактически неверные данные, быть непоследовательными или даже противоречивыми. Примеры включают в себя ситуации, когда модель выдает неправильные факты, создает текст, который не может быть отнесен к какому-либо источнику, или сама противоречит себе. Эти ошибки могут негативно сказаться на надежности и полезности моделей в реальных приложениях.

Одним из методов борьбы с галлюцинациями является калибровка модели, которая направлена на улучшение уверенности предсказаний модели. Калибровка позволяет моделям более точно выражать свою уверенность в ответах, что может помочь избежать ситуаций, когда модель выдает неверные ответы, когда она не уверена.

Предложенный подход: токен [IDK]

В работе предлагается новая методология калибровки, которая включает в себя добавление специального токена [IDK] (I Don’t Know) в словарь модели. Этот токен используется для явного выражения неопределенности модели в своих предсказаниях. Когда модель не уверена в своем ответе, она может присвоить некоторую вероятность этому токену вместо того, чтобы генерировать неверный ответ.

Цель IDK-тюнинга

Основная цель IDK-тюнинга — обучить модель осознавать свою неосведомленность и эффективно выражать ее. Модель должна использовать токен [IDK] для обозначения случаев, когда она не уверена в правильности своего ответа. Это позволяет повысить точность предсказаний, так как модель будет отказываться от генерации неправильных ответов, которые она не может подтвердить.

Объективная функция IDK

Вместо стандартной функции потерь, основанной на кросс-энтропии, в IDK-тюнинге предлагается модифицированная функция потерь. Каждый раз, когда модель не может предсказать правильный токен, ей предлагается перенаправить часть вероятностной массы на токен [IDK]. Это перенаправление зависит от фактора неопределенности, который рассчитывается на основе предсказанных логитов.

Формально, модифицированная функция потерь выглядит следующим образом:

[ L_{IDK} = L_{CE}(\hat{y}, (1 - \lambda)y + \lambda 1_{[IDK]}) ]

где ( \lambda ) — это фактор неопределенности, который принимает значение от 0 до 1. Если модель уверена в своем предсказании, то ( \lambda = 0 ), и функция потерь сводится к обычной кросс-энтропии. Когда модель не уверена, ( \lambda ) будет ближе к 1, и больше вероятностной массы будет перенаправлено на токен [IDK].

Эксперименты и оценка

В исследовании проводятся эксперименты с различными архитектурами моделей и задачами, связанными с фактами. Результаты показывают, что модели, прошедшие IDK-тюнинг, могут более точно выражать неопределенность в случаях, когда они ранее делали ошибки. Это достигается с незначительной потерей уже закодированных знаний.

Параметры и настройки

Для IDK-тюнинга использовались различные модели, включая BERT и Mistral. Обучение проводилось на данных, случайно отобранных из набора данных The Pile, с использованием различных гиперпараметров, таких как скорость обучения и размер пакета.

Результаты

Результаты показывают, что IDK-тюнинг значительно увеличивает точность фактических предсказаний, одновременно минимизируя потерю в полноте знаний. Модели, прошедшие IDK-тюнинг, показывают высокую точность в задачах завершения предложений и выбора ответов на вопросы.

Анализ точности и полноты

Анализ точности и полноты показывает, что использование токена [IDK] позволяет моделям избегать генерации неверных ответов, что в свою очередь улучшает общую точность предсказаний. Однако важно также учитывать полноту, так как слишком частое использование токена [IDK] может снизить количество фактически правильных ответов.

Заключение

Работа "I Don’t Know: Explicit Modeling of Uncertainty with an [IDK] Token" предлагает новый подход к решению проблемы галлюцинаций в больших языковых моделях. Введение токена [IDK] позволяет моделям явно выражать неопределенность и избегать генерации неверных ответов. Эксперименты показывают, что этот подход может значительно улучшить точность предсказаний, что делает его многообещающим для будущих исследований и применения в реальных задачах.

Таким образом, IDK-тюнинг представляет собой важный шаг вперед в области обработки естественного языка, позволяя моделям более надежно справляться с неопределенностью и повышая их полезность в различных приложениях.

Статья на arxiv Оригинал pdf uncertainty hallucinations evaluation

Ай Дайджест