Ай Дайджест - категория knowledge

Когда говорить, когда воздерживаться: Контрастное декодирование с воздержанием

Большие языковые модели (LLM) демонстрируют исключительную производительность по различным задачам, используя как предобученные знания (т.е. параметрические знания), так и внешние знания (т.е. контекстуальные знания). Хотя было предпринято значительное количество усилий для использования обоих видов знаний, сценарии, в которых модель не обладает соответствующими знаниями, остаются недостаточно исследованными. Такие ограничения могут вызывать проблемы, такие как галлюцинации, что приводит к снижению надежности и потенциальным рискам в ситуациях с высокой ставкой. Чтобы устранить такие ограничения, эта статья расширяет область задач, охватывая случаи, когда запрос пользователя не может быть выполнен из-за отсутствия соответствующих знаний. Для этой цели мы представляем Контрастное Декодирование с Воздержанием (CDA), метод декодирования без обучения, который позволяет LLM генерировать ответы, когда соответствующие знания доступны, и воздерживаться в противном случае. CDA оценивает релевантность каждого знания для данного запроса, адаптивно определяя, какие знания следует приоритизировать или какие полностью игнорировать. Обширные эксперименты с четырьмя LLM на трех наборах данных для вопросов и ответов показывают, что CDA может эффективно выполнять точную генерацию и воздержание одновременно. Эти результаты подчеркивают потенциал CDA для расширения применимости LLM, повышения надежности и сохранения доверия пользователей.

2024-12-18models knowledge generation

Влияние OCR на Retrieval-Augmented Generation: Анализ и Оценка

Генерация с дополнением извлечения (RAG) улучшает большие языковые модели (LLMs) за счет интеграции внешних знаний для снижения галлюцинаций и внедрения актуальной информации без повторной тренировки. Важной частью RAG являются внешние базы знаний, которые обычно создаются путем извлечения структурированных данных из неконструированных PDF-документов с помощью оптического распознавания символов (OCR). Тем не менее, учитывая несовершенное предсказание OCR и врожденное ненормированное представление структурированных данных, базы знаний неизбежно содержат различные шумы OCR. В этой статье мы представляем OHRBench, первую стандартную опору для понимания каскадного влияния OCR на системы RAG. OHRBench включает 350 тщательно отобранных неконструированных PDF-документов из шести реальных областей применения RAG, а также вопросы и ответы, полученные из мультимодальных элементов в документах, ставя под сомнение существующие решения OCR, используемые для RAG. Чтобы лучше понять влияние OCR на системы RAG, мы определяем два основных типа шума OCR: семантический шум и шум форматирования и применяем возмущение для генерации набора структурированных данных с различной степенью каждого из шумов OCR. С помощью OHRBench мы сначала проводим комплексную оценку текущих решений OCR и показываем, что ни одно из них не подходит для построения высококачественных баз знаний для систем RAG. Затем мы систематически оцениваем влияние этих двух типов шумов и демонстрируем уязвимость систем RAG. Более того, мы обсуждаем потенциал использования моделей «Видение-Язык» (VLM) без OCR в системах RAG. Код: https://github.com/opendatalab/OHR-Bench

2024-12-04vlms rag evaluation

Оценка многоязычного понимания языка с учетом региональных знаний

Дискриминация производительности больших языковых моделей (LLM) между языками мешает их эффективному развертыванию во многих регионах, ограничивая потенциальную экономическую и социальную ценность инструментов генеративного ИИ во многих сообществах. Тем не менее, разработка функциональных LLM на многих языках (то есть, многоязычных LLM) сдерживается нехваткой ресурсов для оценки качеств на языках, отличных от английского. Более того, текущие практики в построении многоязычных контрольных испытаний часто переводят ресурсы на английский, игнорируя региональные и культурные знания об окружении, в котором будут использоваться многоязычные системы. В этой работе мы создаем набор оценочных данных из 197 243 пар вопросов и ответов из местных источников экзаменов, чтобы измерить возможности многоязычных LLM в различных региональных контекстах. Наш новый ресурс, INCLUDE, является всеобъемлющим ориентированным на знания и рассуждение контрольным испытанием на 44 письменных языках, который оценивает многоязычные LLM по производительности в тех языковых средах, где они будут развернуты.

2024-12-03resources multilingual performance

Изучение возможностей больших языковых моделей в решении пропорциональных аналогий с помощью улучшенного запроса знаний

Создание аналогий является основополагающим для когнитивной деятельности. Пропорциональные аналогии, состоящие из четырех терминов, часто используются для оценки языковых и когнитивных способностей. Например, завершение аналогий типа "Кислород относится к Газу, как <пусто> относится к <пусто>" требует выявления семантической связи (например, "тип") между первой парой терминов ("Кислород" и "Газ") и нахождения второй пары, которая разделяет ту же связь (например, "Алюминий" и "Металл"). В этой работе мы представляем набор данных из 15 тысяч многовариантных вопросов (MCQA) для завершения пропорциональных аналогий и оцениваем производительность современных крупных языковых моделей (LLM) в различных настройках с усилением знаний. В частности, мы дополняем подсказки тремя типами знаний: образцом, структурированным и целевым. Наши результаты показывают, что, несмотря на обширные обучающие данные, решение пропорциональных аналогий остается сложной задачей для современных LLM, причем лучшая модель достигает точности 55%. Примечательно, что мы находим, что предоставление целевого знания может лучше помочь моделям в завершении пропорциональных аналогий по сравнению с предоставлением образцов или коллекций структурированных знаний.

2024-12-03models cognition analogies