Свежая выжимка ml и AI статей - каждый день
В последние годы большие языковые модели (LLM) стали важным инструментом в области обработки естественного языка. Они способны извлекать и генерировать текст, основываясь на огромных объемах данных, что позволяет им успешно справляться с различными задачами, от ответов на вопросы до создания текстов. Однако, несмотря на их впечатляющие возможности, LLM все еще подвержены так называемым "галлюцинациям" — ошибкам, когда модель генерирует фактически неверные или вводящие в заблуждение ответы. В данной статье мы рассмотрим новый подход к решению этой проблемы, предложенный в работе "I, Don’t, Know: Explicit Modeling of Uncertainty with an [IDK] Token" (Я не знаю: явное моделирование неопределенности с помощью токена [IDK]).
Галлюцинации представляют собой серьезную проблему для LLM, так как они могут привести к созданию неверной информации. Модели могут генерировать фактически неверные данные, быть непоследовательными или даже противоречивыми. Примеры включают в себя ситуации, когда модель выдает неправильные факты, создает текст, который не может быть отнесен к какому-либо источнику, или сама противоречит себе. Эти ошибки могут негативно сказаться на надежности и полезности моделей в реальных приложениях.
Одним из методов борьбы с галлюцинациями является калибровка модели, которая направлена на улучшение уверенности предсказаний модели. Калибровка позволяет моделям более точно выражать свою уверенность в ответах, что может помочь избежать ситуаций, когда модель выдает неверные ответы, когда она не уверена.
В работе предлагается новая методология калибровки, которая включает в себя добавление специального токена [IDK] (I Don’t Know) в словарь модели. Этот токен используется для явного выражения неопределенности модели в своих предсказаниях. Когда модель не уверена в своем ответе, она может присвоить некоторую вероятность этому токену вместо того, чтобы генерировать неверный ответ.
Основная цель IDK-тюнинга — обучить модель осознавать свою неосведомленность и эффективно выражать ее. Модель должна использовать токен [IDK] для обозначения случаев, когда она не уверена в правильности своего ответа. Это позволяет повысить точность предсказаний, так как модель будет отказываться от генерации неправильных ответов, которые она не может подтвердить.
Вместо стандартной функции потерь, основанной на кросс-энтропии, в IDK-тюнинге предлагается модифицированная функция потерь. Каждый раз, когда модель не может предсказать правильный токен, ей предлагается перенаправить часть вероятностной массы на токен [IDK]. Это перенаправление зависит от фактора неопределенности, который рассчитывается на основе предсказанных логитов.
Формально, модифицированная функция потерь выглядит следующим образом:
[ L_{IDK} = L_{CE}(\hat{y}, (1 - \lambda)y + \lambda 1_{[IDK]}) ]
где ( \lambda ) — это фактор неопределенности, который принимает значение от 0 до 1. Если модель уверена в своем предсказании, то ( \lambda = 0 ), и функция потерь сводится к обычной кросс-энтропии. Когда модель не уверена, ( \lambda ) будет ближе к 1, и больше вероятностной массы будет перенаправлено на токен [IDK].
В исследовании проводятся эксперименты с различными архитектурами моделей и задачами, связанными с фактами. Результаты показывают, что модели, прошедшие IDK-тюнинг, могут более точно выражать неопределенность в случаях, когда они ранее делали ошибки. Это достигается с незначительной потерей уже закодированных знаний.
Для IDK-тюнинга использовались различные модели, включая BERT и Mistral. Обучение проводилось на данных, случайно отобранных из набора данных The Pile, с использованием различных гиперпараметров, таких как скорость обучения и размер пакета.
Результаты показывают, что IDK-тюнинг значительно увеличивает точность фактических предсказаний, одновременно минимизируя потерю в полноте знаний. Модели, прошедшие IDK-тюнинг, показывают высокую точность в задачах завершения предложений и выбора ответов на вопросы.
Анализ точности и полноты показывает, что использование токена [IDK] позволяет моделям избегать генерации неверных ответов, что в свою очередь улучшает общую точность предсказаний. Однако важно также учитывать полноту, так как слишком частое использование токена [IDK] может снизить количество фактически правильных ответов.
Работа "I Don’t Know: Explicit Modeling of Uncertainty with an [IDK] Token" предлагает новый подход к решению проблемы галлюцинаций в больших языковых моделях. Введение токена [IDK] позволяет моделям явно выражать неопределенность и избегать генерации неверных ответов. Эксперименты показывают, что этот подход может значительно улучшить точность предсказаний, что делает его многообещающим для будущих исследований и применения в реальных задачах.
Таким образом, IDK-тюнинг представляет собой важный шаг вперед в области обработки естественного языка, позволяя моделям более надежно справляться с неопределенностью и повышая их полезность в различных приложениях.