Эксперименты с Run-Time Стратегиями для Медицинских Задач и Дальше

Промп-инжиниринг, как область исследований и практика, быстро развивается вместе с ростом применения больших языковых моделей (LLM). Промпты помогают сфокусировать и усилить возможности LLM, обученных выполнять инструкции. В нашей предыдущей работе мы представили Medprompt, подчеркивающий эффективность возможностей инференции через использование структурированного, многоступенчатого промпта. Medprompt, разработанный через исследовательскую работу по стратегиям промптов для улучшения производительности моделей на медицинских тестах, значительно повышает производительность, используя динамическое рассуждение, курированные примеры и ансамблирование.

Фоновая информация

Использование LLM для медицинских задач

Мы сосредоточились на бенчмарках в области медицинских задач как на представительной специализированной области для изучения использования общих моделей в сферах, где требуются высококвалифицированные специалисты. Общие LLM продемонстрировали выдающиеся возможности для решения сложных проблем в области здравоохранения и биомедицины, часто превосходя модели, обученные на специализированных данных.

В раннюю эру фундаментальных моделей специализированное предобучение было критически важным из-за их ограниченного размера и вычислительных мощностей. Модели, такие как PubMedBERT, BioGPT и BioMedLM, были предобучены на специализированных датасетах, таких как PubMed и UMLS, используя самостоятельное обучение. Несмотря на их относительно небольшие размеры, эти модели показали высокую производительность на биомедицинских задачах NLP. Однако последние достижения показали, что новые, более крупные общие фундаментальные модели могут достигать превосходных результатов в медицинских задачах даже без специализированного предобучения.

Medprompt: Стратегии для специализированных доменов

Хотя модели, такие как GPT-4, демонстрируют впечатляющую общую производительность, некоторые специализированные области, такие как медицина, требуют большего адаптирования для реального использования. Medprompt предлагает принципиальный подход к управлению мощными общими моделями для специализированных доменов во время выполнения, сочетая несколько продвинутых техник промптов для улучшения производительности в медицинских контекстах. Фреймворк состоит из трех основных компонентов:

Динамическое, специфическое для экземпляра обучение в контексте: Использование контекста для адаптации модели к конкретной задаче.
Цепочка рассуждений (Chain-of-Thought): Поощрение модели к пошаговому решению задач.
Ансамблирование: Комбинирование нескольких выводов модели для повышения точности и надежности.

Экспериментальная установка

Мы оценили производительность модели o1-preview на наборе медицинских бенчмарков и сравнили ее точность с моделями, включая возможности, раскрытые через Medprompt. Наша цель — оценить как медицинские знания, так и способности к рассуждению моделей, особенно в сценариях, связанных с пациентами. Мы проводили эксперименты на медицинских бенчмарках: MedQA, MedMCQA, MMLU (медицинский подмножество), NCLEX и новом бенчмарке JMLE-2024.

Результаты

Основные результаты

Таблицы 1 и 2 представляют производительность модели o1-preview и базовых моделей на бенчмарках. Результаты показывают, что o1-preview достигает впечатляющих результатов во многих задачах, превосходя базовые модели GPT-4. Интересно, что результаты o1-preview включают простой 0-shot промптинг, в отличие от более сложных стратегий, таких как Medprompt.

Влияние техник промптов на производительность o1-preview

Мы исследовали, как различные стратегии промптов влияют на производительность модели o1-preview. Наша цель — определить, предоставляют ли более продвинутые методы промптов дополнительные преимущества по сравнению с более простыми подходами для этой новой категории моделей.

Роль и производительность токенов рассуждений

Токенное использование модели o1-preview разделяется на три компонента: входные токены, токены рассуждений и выходные токены. Мы экспериментировали с альтернативным форматом промпта, инструктируя модель предоставлять только конечный ответ без сопроводительных объяснений или обоснований. Это позволяет o1-preview свободно рассуждать, используя свои внутренние токены рассуждений.

Точность и стоимость

Мы исследовали компромиссы между точностью и стоимостью, используя бенчмарк MedQA. Оценка производительности LLM включает в себя баланс между точностью и стоимостью. Техники для управления во время выполнения, такие как Medprompt, могут улучшить качество вывода. Однако они увеличивают потребление токенов и, следовательно, повышают затраты на инференцию. Например, хотя модель o1-preview достигает отличной производительности, это связано с более высокими операционными расходами.

Заключение

Мы ожидаем, что ландшафт стратегий выполнения для LLM будет быстро развиваться. Мы систематически оценили модель o1-preview от OpenAI на наборе медицинских бенчмарков. Замечательно, что даже без продвинутых техник промптов o1-preview превзошла GPT-4 с Medprompt. Medprompt был разработан для управления общими моделями в специализированных областях, используя методы, такие как самогенерируемое CoT и few-shot prompting. Однако наши результаты показывают, что модель o1-preview уменьшает зависимость от некоторых из этих техник. В некоторых случаях few-shot prompting даже ухудшал производительность o1-preview, что указывает на то, что обучение в контексте больше не является эффективным способом управления этими моделями.

Хотя ансамблирование остается жизнеспособным подходом, оно требует значительных ресурсов и тщательной оптимизации для балансирования между затратами и выгодами. Наш анализ затрат и точности различных стратегий выполнения выявил новую границу Парето, иллюстрирующую компромиссы между стоимостью и точностью. Хотя GPT-4o с такими стратегиями, как Medprompt, сохраняет ценность в определенных контекстах, оптимизация стратегий выполнения для продвинутых моделей, таких как o1-preview, потребует нюансированного баланса между управлением, производительностью и распределением ресурсов.

Статья на arxiv Оригинал pdf benchmarks optimization steering

Ай Дайджест