Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "hallucinations"

RetroLLM: Объединение поиска и генерации для больших языковых моделей

Большие языковые модели (LLM) демонстрируют замечательные генеративные способности, но часто страдают от галлюцинаций. Генерация с поддержкой поиска (RAG) предлагает эффективное решение, включая внешний контекст, но существующие методы сталкиваются с несколькими ограничениями: дополнительные затраты на развертывание отдельных извлекательных модулей, избыточные токены ввода из извлеченных текстовых фрагментов и отсутствие совместной оптимизации извлечения и генерации. Чтобы решить эти проблемы, мы предлагаем RetroLLM — единые архитектуры, объединяющие извлечение и генерацию в один последовательный процесс, позволяя LLM непосредственно генерировать детализированные доказательства из корпуса с использованием ограниченного декодирования. Более того, чтобы смягчить ложную обрезку в процессе генерации ограниченных доказательств, мы вводим (1) иерархические ограничения FM-индекса, которые генерируют подсказки, ограниченные корпусом, чтобы определить подмножество релевантных документов перед генерацией доказательств, снижая нерелевантное декодирование; и (2) стратегию ограниченного декодирования, ориентированную на будущее, которая учитывает релевантность будущих последовательностей для повышения точности доказательств. Обширные эксперименты на пяти наборах данных открытых доменов QA демонстрируют превосходные результаты RetroLLM как в задачах в области, так и за ее пределами. Код доступен по адресу https://github.com/sunnynexus/RetroLLM.

Я не знаю: явное моделирование неопределенности с помощью токена [IDK]

Большие языковые модели известны тем, что они захватывают знания о реальном мире, что позволяет им преуспевать во многих последующих задачах. Несмотря на недавние достижения, эти модели все еще подвержены тому, что обычно называют «галлюцинациями», что приводит к тому, что они выдают нежелательный и фактически неправильный текст. В этой работе мы предлагаем новый метод калибровки, который можно использовать для борьбы с галлюцинациями. Мы добавляем специальный токен [IDK] ("Я не знаю") в словарь модели и вводим целевую функцию, которая перемещает массу вероятностей к токену [IDK] для неправильных предсказаний. Этот подход позволяет модели явно выражать неопределенность в своих выходных данных. Мы оцениваем наш предложенный метод на нескольких архитектурах модели и фактических задачах. Мы обнаруживаем, что модели, обученные с нашим методом, способны выражать неопределенность в местах, где ранее они допускали ошибки, при этом теряя только небольшую часть закодированных знаний. Кроме того, мы проводим обширные аблационные исследования нескольких вариаций нашего подхода и предоставляем детальный анализ компромисса между точностью и полнотой нашего метода.

Масштабирование поиска во время вывода с помощью модели Vision Value для улучшения визуального восприятия

Несмотря на значительные достижения в области моделей визуального языка (VLM), отсутствуют эффективные подходы для повышения качества ответов за счет масштабирования вычислений во время вывода. Эта способность известна как ключевой шаг к самоусовершенствующимся моделям в недавних исследованиях больших языковых моделей. В этой статье мы представляем модель Vision Value Model (VisVM), которая может направлять поиск во время вывода VLM для генерации ответов с лучшим визуальным пониманием. В частности, VisVM не только оценивает качество сгенерированного предложения на текущем шаге поиска, но и предсказывает качество последующих предложений, которые могут возникнуть из текущего шага, тем самым предоставляя долгосрочную ценность. Таким образом, VisVM отвлекает VLM от генерации предложений, склонных к галлюцинациям или недостаточной детализации, что приводит к более качественным ответам. Экспериментальные результаты показывают, что поиск с помощью VisVM значительно усиливает способность VLM генерировать описательные подписи с более богатыми визуальными деталями и меньшим количеством галлюцинаций по сравнению с жадным декодированием и поисковыми методами с другими визуальными сигналами вознаграждения. Кроме того, мы обнаружили, что самообучение модели с помощью подписи, направляемой VisVM, улучшает производительность VLM по множеству мультимодальных бенчмарков, что указывает на потенциал разработки самоусовершенствующихся VLM. Наша модель ценности и код доступны по адресу https://github.com/si0wang/VisVM.

Адаптация и обучение: Обоснование LLM для научных проблем с умным использованием инструментов

Большие языковые модели (LLMs) демонстрируют перспективные возможности для решения простых научных задач, но часто создают иллюзии при работе с более сложными. Интеграция LLM с инструментами может повысить надежность, но такой подход обычно приводит к чрезмерной зависимости от инструментов, что уменьшает способность модели решать простые задачи с помощью базового рассуждения. В отличие от этого, человеческие эксперты сначала оценивают сложность задачи, используя знания в своей области, прежде чем выбрать подходящее решение. Вдохновленные этим человеческим процессом решения проблем, мы предлагаем новый метод тонкой настройки с двумя компонентами. В первом компоненте, называемом Дистилляцией мирового знания (WKD), LLM учатся напрямую из решений, созданных с использованием информации инструментов, чтобы внутренне усвоить знания в определенной области. Во втором компоненте, Адаптация использования инструментов (TUA), мы разделяем задачи на простые и сложные категории на основе точности прямого ответа модели. Поддерживая ту же цель выравнивания для простых задач, как в WKD, мы обучаем модель разумно переключаться на использование инструментов для более сложных проблем. Мы проверяем наш метод на шести научных эталонных наборах данных, охватывающих математику, климатологию и эпидемиологию. В среднем наши модели показывают улучшение точности ответов на 28,18% и увеличение точности использования инструментов на 13,89% по всем наборам данных, превосходя современные модели, включая GPT-4o и Claude-3.5.