ClinicalBench: Сравнение LLM и традиционных моделей машинного обучения в клинических прогнозах
Большие языковые модели (LLM) демонстрируют значительный потенциал для революционизации клинических систем благодаря своим превосходным способностям к обработке медицинских текстов и прохождению медицинских лицензионных экзаменов. Однако, несмотря на эти достижения, традиционные модели машинного обучения (ML), такие как SVM, XGBoost и нейронные сети, по-прежнему широко используются для клинических прогнозов. Вопрос о том, могут ли LLM превзойти эти традиционные модели, остается актуальным. В этом контексте была разработана новая эталонная платформа, ClinicalBench, для всестороннего изучения способностей как общих, так и медицинских LLM в сравнении с традиционными ML моделями.
ClinicalBench: Обзор
ClinicalBench охватывает три распространенных клинических прогностических задачи:
- Прогноз продолжительности пребывания в больнице: Классификация на три класса (менее недели, 1-2 недели, более двух неделей).
- Прогноз смертности: Бинарная классификация (умер/жив).
- Прогноз повторной госпитализации: Бинарная классификация (будет ли пациент повторно госпитализирован в течение определенного времени).
Используя две базы данных, MIMIC-III и MIMIC-IV, ClinicalBench включает:
- 14 общих LLM (например, Llama3, Mistral, Gemma2).
- 8 медицинских LLM (например, Meditron, Medllama3, BioMistral).
- 11 традиционных ML моделей (включая XGBoost, SVM, MLP, Transformer и RNN).
Исследование вопросов
ClinicalBench ставит перед собой три основных вопроса:
-
Могут ли LLM с прямым запросом превзойти традиционные ML модели?
- Результаты показывают, что традиционные ML модели, как правило, значительно превосходят LLM среднего размера по всем трем задачам и в обеих базах данных.
-
Могут ли LLM с инженерией запросов превзойти традиционные ML модели?
- Исследование эффективности различных стратегий запросов (например, Chain-of-Thought, Self-Reflection, Role-Playing, In-Context Learning) показывает, что их влияние ограничено, и LLM все равно не могут превзойти традиционные ML модели.
-
Могут ли настроенные LLM превзойти традиционные ML модели?
- Настройка LLM с помощью методов, таких как LoRA (Low-Rank Adaptation), приводит к улучшению результатов для некоторых задач, но большинство настроенных LLM все еще уступают традиционным ML моделям.
Результаты и выводы
Прямой запрос
- Традиционные ML модели демонстрируют более высокие значения (Macro) F1 и AUROC по сравнению с LLM.
- Даже при увеличении температуры декодирования или размера параметров, LLM не могут достичь уровня производительности традиционных моделей.
Инженерия запросов
- Стратегии, такие как In-Context Learning, показали некоторое улучшение для определенных моделей и задач, но в целом эффект был ограничен.
Настройка
- Настройка моделей с помощью LoRA улучшила результаты для задач прогноза продолжительности пребывания и смертности, но не для прогноза повторной госпитализации.
Импликации и гипотезы
- LLM демонстрируют потенциальные ограничения в клиническом рассуждении и принятии решений в реальных сценариях, несмотря на высокую производительность в тестах на общие медицинские знания.
- Предполагается, что недостаток реалистичных и релевантных данных на стадиях предварительного обучения и дообучения может быть причиной ограниченной способности LLM к клиническому прогнозированию.
Заключение
ClinicalBench подчеркивает необходимость осторожного подхода к интеграции LLM в клинические приложения. Платформа может способствовать дальнейшему развитию LLM для здравоохранения, сокращая разрыв между их разработкой и практическим применением в медицине.