ClinicalBench: Сравнение LLM и традиционных моделей машинного обучения в клинических прогнозах

Большие языковые модели (LLM) демонстрируют значительный потенциал для революционизации клинических систем благодаря своим превосходным способностям к обработке медицинских текстов и прохождению медицинских лицензионных экзаменов. Однако, несмотря на эти достижения, традиционные модели машинного обучения (ML), такие как SVM, XGBoost и нейронные сети, по-прежнему широко используются для клинических прогнозов. Вопрос о том, могут ли LLM превзойти эти традиционные модели, остается актуальным. В этом контексте была разработана новая эталонная платформа, ClinicalBench, для всестороннего изучения способностей как общих, так и медицинских LLM в сравнении с традиционными ML моделями.

ClinicalBench: Обзор

ClinicalBench охватывает три распространенных клинических прогностических задачи:

Прогноз продолжительности пребывания в больнице: Классификация на три класса (менее недели, 1-2 недели, более двух неделей).
Прогноз смертности: Бинарная классификация (умер/жив).
Прогноз повторной госпитализации: Бинарная классификация (будет ли пациент повторно госпитализирован в течение определенного времени).

Используя две базы данных, MIMIC-III и MIMIC-IV, ClinicalBench включает:

14 общих LLM (например, Llama3, Mistral, Gemma2).
8 медицинских LLM (например, Meditron, Medllama3, BioMistral).
11 традиционных ML моделей (включая XGBoost, SVM, MLP, Transformer и RNN).

Исследование вопросов

ClinicalBench ставит перед собой три основных вопроса:

Могут ли LLM с прямым запросом превзойти традиционные ML модели?
- Результаты показывают, что традиционные ML модели, как правило, значительно превосходят LLM среднего размера по всем трем задачам и в обеих базах данных.
Могут ли LLM с инженерией запросов превзойти традиционные ML модели?
- Исследование эффективности различных стратегий запросов (например, Chain-of-Thought, Self-Reflection, Role-Playing, In-Context Learning) показывает, что их влияние ограничено, и LLM все равно не могут превзойти традиционные ML модели.
Могут ли настроенные LLM превзойти традиционные ML модели?
- Настройка LLM с помощью методов, таких как LoRA (Low-Rank Adaptation), приводит к улучшению результатов для некоторых задач, но большинство настроенных LLM все еще уступают традиционным ML моделям.

Результаты и выводы

Прямой запрос

Традиционные ML модели демонстрируют более высокие значения (Macro) F1 и AUROC по сравнению с LLM.
Даже при увеличении температуры декодирования или размера параметров, LLM не могут достичь уровня производительности традиционных моделей.

Инженерия запросов

Стратегии, такие как In-Context Learning, показали некоторое улучшение для определенных моделей и задач, но в целом эффект был ограничен.

Настройка

Настройка моделей с помощью LoRA улучшила результаты для задач прогноза продолжительности пребывания и смертности, но не для прогноза повторной госпитализации.

Импликации и гипотезы

LLM демонстрируют потенциальные ограничения в клиническом рассуждении и принятии решений в реальных сценариях, несмотря на высокую производительность в тестах на общие медицинские знания.
Предполагается, что недостаток реалистичных и релевантных данных на стадиях предварительного обучения и дообучения может быть причиной ограниченной способности LLM к клиническому прогнозированию.

Заключение

ClinicalBench подчеркивает необходимость осторожного подхода к интеграции LLM в клинические приложения. Платформа может способствовать дальнейшему развитию LLM для здравоохранения, сокращая разрыв между их разработкой и практическим применением в медицине.

Статья на arxiv Оригинал pdf svm fine-tuning llms

Ай Дайджест