Ай Дайджест - категория qa

AfriMed-QA: Панафриканский медицинский набор данных для вопросов и ответов

Недавние достижения в производительности больших языковых моделей (LLM) по медицинским тестам с выбором из нескольких вариантов (MCQ) вызвали интерес со стороны поставщиков медицинских услуг и пациентов по всему миру. Особенно в странах с низкими и средними доходами (LMIC), испытывающих острый дефицит врачей и нехватку специалистов, LLM предлагают потенциально масштабируемый способ улучшения доступа к медицинским услугам и снижения затрат. Однако их эффективность в Глобальном Юге, особенно на африканском континенте, еще предстоит установить. В этой работе мы представляем AfriMed-QA, первую крупномасштабную панаравиканскую английскую базу данных вопросов и ответов (QA) в области медицины, состоящую из 15 000 вопросов (открытых и закрытых), собранных из более чем 60 медицинских школ в 16 странах, охватывающих 32 медицинские специальности. Мы дополнительно оцениваем 30 LLM по нескольким критериям, включая правильность и демографическую предвзятость. Наши результаты показывают значительное различие в производительности между специальностями и регионами; производительность MCQ явно отстает от USMLE (MedQA). Мы обнаруживаем, что биомедицинские LLM уступают общим моделям, а меньшие модели LLM, ориентированные на крайние устройства, с трудом достигают проходного балла. Интересно, что человеческие оценки показывают устойчивое предпочтение потребителей к ответам и объяснениям LLM по сравнению с ответами клиницистов.

2024-11-29performance llm qa

Комплексная и практическая оценка систем RAG для медицинских вопросов

Генерация с дополнительным извлечением (RAG) выделяется как перспективный метод для улучшения работы больших языковых моделей (LLM) в задачах, требующих глубоких знаний, таких как задачи в медицинской сфере. Однако чувствительная природа медицинской области требует абсолютно точной и надежной системы. Хотя существующие бенчмарки RAG в основном сосредоточены на стандартном сценарии извлечения-ответа, они упускают из виду многие практические ситуации, которые оценивают важные аспекты надежной медицинской системы. В этой статье мы устраняем этот пробел, предоставляя всеобъемлющую оценочную структуру для систем ответов на медицинские вопросы (QA) в условиях RAG для таких ситуаций, включая достаточность, интеграцию и устойчивость. Мы представляем Медицинский Бенчмарк Генерации с Дополнительным Извлечением (MedRGB), который предлагает различные дополнительные элементы для четырех медицинских наборов данных QA для тестирования способности LLM справляться с этими специфическими сценариями. Используя MedRGB, мы проводим обширные оценки как передовых коммерческих LLM, так и моделей с открытым исходным кодом в различных условиях извлечения. Наши экспериментальные результаты показывают ограниченную способность текущих моделей справляться с шумом и дезинформацией в извлеченных документах. Мы также анализируем процессы рассуждения LLM, чтобы предоставить ценные выводы и направления для дальнейшего развития систем RAG в этой критически важной медицинской области.

2024-11-19evaluation robustness qa

HtmlRAG: HTML лучше простого текста для моделирования извлеченных знаний в RAG-системах

Генерация с усилением извлечения (RAG) показала улучшение в способностях к знаниям и снижение проблемы галлюцинаций у моделей языкового уровня (LLMs). Интернет является основным источником внешних знаний, используемых в системах RAG, и многие коммерческие системы, такие как ChatGPT и Perplexity, использовали поисковые системы Интернета в качестве основных систем извлечения. Обычно такие системы RAG извлекают результаты поиска, загружают HTML-источники этих результатов, а затем извлекают из них простые тексты. Простые текстовые документы или фрагменты подаются в LLM для усиления генерации. Однако, в процессе такого текстового RAG теряется много структурной и семантической информации, присущей HTML, такой как заголовки и структуры таблиц. Для решения этой проблемы мы предлагаем HtmlRAG, который использует HTML вместо простого текста в качестве формата извлеченных знаний в RAG. Мы считаем, что HTML лучше моделирует знания во внешних документах, и большинство LLM обладают надежными возможностями понимания HTML. Однако использование HTML представляет новые вызовы. HTML содержит дополнительный контент, такой как теги, JavaScript и CSS-спецификации, которые добавляют лишние токены ввода и шум в систему RAG. Для решения этой проблемы мы предлагаем стратегии очистки, сжатия и обрезки HTML, чтобы уменьшить объем HTML, минимизируя при этом потерю информации. В частности, мы разработали двухэтапный метод обрезки на основе дерева блоков, который удаляет бесполезные HTML-блоки и сохраняет только релевантную часть HTML. Эксперименты на шести наборах данных для вопросов и ответов подтверждают превосходство использования HTML в системах RAG.

2024-11-06qa rag pruning