Ай Дайджест - категория clinical

ClinicalBench: Сравнение LLM и традиционных моделей машинного обучения в клинических прогнозах

Большие языковые модели (LLMs) обладают огромным потенциалом для революционизации текущих клинических систем благодаря своим превосходным способностям в обработке медицинских текстов и сдаче медицинских лицензионных экзаменов. В то же время традиционные модели машинного обучения, такие как SVM и XGBoost, до сих пор в основном используются в задачах клинического прогнозирования. Возникает вопрос: могут ли LLM превзойти традиционные модели машинного обучения в клиническом прогнозировании? Поэтому мы создали новую эталонную платформу ClinicalBench для всестороннего изучения возможностей клинического прогнозирования как универсальных, так и медицинских LLM, и сравнения их с традиционными моделями машинного обучения. ClinicalBench включает три распространенные задачи клинического прогнозирования, две базы данных, 14 универсальных LLM, 8 медицинских LLM и 11 традиционных моделей машинного обучения. В результате обширного эмпирического исследования мы обнаружили, что как универсальные, так и медицинские LLM, даже с различными масштабами моделей, разнообразными подходами к подсказкам или тонкой настройке, пока не могут превзойти традиционные модели машинного обучения в клиническом прогнозировании, что указывает на их возможное недостаточное развитие в области клинического мышления и принятия решений. Мы призываем к осторожности при использовании LLM в клинических приложениях. ClinicalBench может быть использована для сокращения разрыва между разработкой LLM для здравоохранения и реальной клинической практикой.

2024-11-15svm xgboost fine-tuning