Свежая выжимка ml и AI статей - каждый день
С развитием крупных языковых моделей (LLM) их возможности начинают применяться не только для генерации текста, но и для оценки и обучения других моделей. Одним из таких методов является использование "конституций" — наборов правил или руководств, которые помогают модели-критику давать обратную связь, направленную на улучшение качества генерации. В этом исследовании мы рассмотрим, как выбор конституции влияет на качество обратной связи, используя четыре разных конституции для улучшения пациент-центрированной коммуникации в медицинских интервью.
Основной элемент обучения с обратной связью ИИ — это итеративный процесс обучения в контексте, в котором конституция используется для создания предпочтительных выходных данных модели. Эти данные затем используются для тонкой настройки модели, и процесс может повторяться. Мы сосредоточились на улучшении диалогов через обучение в контексте, ожидая, что лучшие результаты в этом сегменте обучения приведут к общему улучшению.
Мы использовали медицинские интервью в качестве основы для диалогов, основанных на двух медицинских виньетках из набора данных AgentClinic. Для выполнения обучения в контексте мы создали итеративный цикл с использованием четырех различных LLM-агентов, каждый из которых выполнял определенную роль:
После одного раунда обратной связи от критика и двух диалогов между пациентом и доктором, мы записывали последний диалог для оценки.
Мы сравнивали четыре конституции:
Финальные диалоги сравнивались по шести категориям рамки пациент-центрированной коммуникации, включая вопросы о поддержке отношений, сборе информации, предоставлении информации, принятии решений, поддержке поведения, связанного с болезнью и лечением, и реагировании на эмоции.
Для оценки финальных диалогов мы привлекли 215 человек-оценщиков с платформы Prolific. Участники сравнивали два случайно выбранных диалога, основанных на разных конституциях, и оценивали их по критериям пациент-центрированной коммуникации, а также предоставляли общее предпочтение.
В ходе исследования мы обнаружили, что конституция "Лучшие практики" предпочтительнее для улучшения эмоционально-ориентированных аспектов коммуникации, таких как поддержка отношений, принятие решений и реагирование на эмоции. Однако, для более практически ориентированных аспектов, таких как сбор и предоставление информации, не было значительной разницы между конституциями или даже наблюдалось ухудшение результатов с использованием "Лучших практик".
Наши результаты подтверждают, что детализированные конституции могут значительно улучшить качество диалогов в эмоционально ориентированных аспектах коммуникации. Это согласуется с предыдущими исследованиями, показывающими, что специфичность конституции важна для достижения желаемых результатов при обучении с обратной связью ИИ. Однако, для задач, связанных с практическим обменом информацией, такие как сбор и предоставление данных, LLM могут испытывать трудности, поскольку эти задачи требуют планирования и понимания намерений.
Кроме того, обратная связь от участников показала, что чрезмерная многословность или эмоциональность в ответах может быть нежелательной, даже если эти ответы оцениваются как более "эмпатичные". Это подчеркивает сложность в измерении человеческих предпочтений и указывает на необходимость дальнейших исследований в области создания эффективных конституций для обучения LLM.