AfriMed-QA: Панафриканский медицинский набор данных для вопросов и ответов
Недавние достижения в производительности больших языковых моделей (LLM) по медицинским тестам с выбором из нескольких вариантов (MCQ) вызвали интерес со стороны поставщиков медицинских услуг и пациентов по всему миру. Особенно в странах с низкими и средними доходами (LMIC), испытывающих острый дефицит врачей и нехватку специалистов, LLM предлагают потенциально масштабируемый способ улучшения доступа к медицинским услугам и снижения затрат. Однако их эффективность в Глобальном Юге, особенно на африканском континенте, еще предстоит установить. В этой работе мы представляем AfriMed-QA, первую крупномасштабную панаравиканскую английскую базу данных вопросов и ответов (QA) в области медицины, состоящую из 15 000 вопросов (открытых и закрытых), собранных из более чем 60 медицинских школ в 16 странах, охватывающих 32 медицинские специальности. Мы дополнительно оцениваем 30 LLM по нескольким критериям, включая правильность и демографическую предвзятость. Наши результаты показывают значительное различие в производительности между специальностями и регионами; производительность MCQ явно отстает от USMLE (MedQA). Мы обнаруживаем, что биомедицинские LLM уступают общим моделям, а меньшие модели LLM, ориентированные на крайние устройства, с трудом достигают проходного балла. Интересно, что человеческие оценки показывают устойчивое предпочтение потребителей к ответам и объяснениям LLM по сравнению с ответами клиницистов.