AfriMed-QA: Панафриканский медицинский набор данных для вопросов и ответов

Современные достижения в области больших языковых моделей (LLM) открывают новые горизонты в медицинской практике. Особенно это актуально для стран с низким и средним уровнем доходов (LMIC), где нехватка врачей и специалистов является серьезной проблемой. Модели LLM могут предложить масштабируемые решения для повышения доступности медицинских услуг и снижения их стоимости. Однако эффективность таких решений в странах Глобального Юга, особенно в Африке, еще предстоит оценить.

В этой статье мы представим AfriMed-QA — первый крупномасштабный панафриканский набор данных для вопросов и ответов на медицинские темы, который включает 15 000 вопросов, собранных из более чем 60 медицинских школ в 16 странах и охватывающий 32 медицинские специальности. Мы также проведем оценку 30 LLM по различным критериям, включая правильность ответов и демографические предвзятости.

Цели и задачи исследования

Целью создания AfriMed-QA является:

Интеграция геокультурно разнообразных наборов данных, которые отражают уникальные потребности здравоохранения в Африке.
Расширение наборов данных для оценки LLM на основе потребительских и пациентских запросов, что позволит моделям обучаться на более широком спектре медицинских данных.

Описание набора данных AfriMed-QA

Структура набора данных

Набор данных AfriMed-QA состоит из:

4 000+ экспертных вопросов с несколькими вариантами ответов (MCQ).
1 200+ открытых вопросов с короткими ответами (SAQ).
10 000 потребительских запросов (CQ).

Эти вопросы были собраны от 621 участника (55.56% женщин и 44.44% мужчин) из более чем 60 медицинских школ в 16 странах, включая такие специальности, как акушерство и гинекология, нейрохирургия, внутренняя медицина и инфекционные болезни.

Методология сбора данных

Сбор данных был организован с использованием веб-платформы, разработанной Intron Health. Участники, включая медицинских стажеров и клиницистов, были приглашены предоставить вопросы, следуя строгим инструкциям, которые обеспечивали качество и релевантность данных. Вопросы проходили тщательную проверку на соответствие медицинским стандартам и актуальности для африканского контекста.

Оценка LLM

Выбор моделей

В исследовании было оценено 30 моделей LLM, включая открытые и проприетарные решения, такие как GPT-4, Claude-3 и другие. Модели были выбраны на основе их размера и области применения (общие и биомедицинские модели).

Методы оценки

Оценка моделей проводилась как количественно, так и качественно. Для вопросов с несколькими вариантами ответов использовалась метрика точности, а для открытых вопросов применялся BertScore для измерения семантической схожести между сгенерированными ответами и эталонными ответами.

Результаты

Общие результаты

Результаты оценки показали значительные вариации в производительности моделей в зависимости от специальности и географического контекста. Наилучшие результаты были показаны моделями, такими как GPT-4o и Claude-3, которые достигли 79% точности на MCQ. В то же время, меньшие модели демонстрировали более низкие результаты, что подчеркивает важность выбора подходящей модели для конкретных задач.

Человеческая оценка

В ходе исследования также проводилась человеческая оценка ответов LLM. Рейтинги показали, что в большинстве случаев модели LLM были оценены выше, чем ответы клиницистов, особенно в контексте потребительских запросов. Это указывает на то, что LLM могут быть полезными инструментами для оказания медицинских консультаций, особенно в условиях ограниченных ресурсов.

Обсуждение

Проблемы локализации

Несмотря на успехи LLM, существует значительный разрыв в производительности между американскими и африканскими наборами данных. Модели, обученные на данных из США, часто не учитывают культурные и медицинские нюансы, характерные для африканских стран. Это подчеркивает необходимость создания локализованных наборов данных, таких как AfriMed-QA.

Будущее LLM в Африке

AfriMed-QA открывает новые возможности для использования LLM в африканском здравоохранении. Однако необходимо продолжать работу по расширению представительства различных регионов и языков, чтобы обеспечить более полное и точное медицинское обслуживание.

Заключение

В этой статье мы представили AfriMed-QA — важный шаг к созданию более доступных и эффективных инструментов для медицинского обслуживания в Африке. Оценка LLM на основе этого набора данных показала как достижения, так и области для улучшения. Мы надеемся, что дальнейшие исследования и разработки помогут создать более адаптированные решения для уникальных нужд африканских стран.

Статья на arxiv Оригинал pdf bias llm mcq

Ай Дайджест