

Большие языковые модели в медицине: результаты исследования Оксфорда
Новое исследование Оксфордского университета показывает, что, хотя большие языковые модели (LLM) справляются с медицинскими тестами наравне с врачами, их эффективность резко снижается при взаимодействии с реальными пациентами. В рандомизированном контролируемом исследовании, проведённом Оксфордским интернет-институтом, приняли участие 1298 человек из Великобритании.
Участников попросили проработать десять реалистичных медицинских сценариев. В каждом случае они должны были определить возможную причину своих симптомов и выбрать подходящий способ лечения — от самопомощи до обращения к врачу общей практики или в отделение неотложной помощи. Некоторые участники получали помощь от большой языковой модели, в то время как другие могли свободно искать информацию в Google.
Среди оцениваемых моделей были GPT-4o от OpenAI, Llama 3 от Meta* и Command R+ от Cohere.
При прямом запросе в тестовых сценариях языковые модели давали убедительные ответы. GPT-4o определял хотя бы одно релевантное условие в 94,7% случаев и рекомендовал правильное действие в 64,7% случаев. Llama 3 достигала 99,2% точности в определении условий, а Command R+ — 90,8%. Их рекомендации по следующим шагам были правильными в 48,8% и 55,5% случаев соответственно.
Однако, как только пользователи начали взаимодействовать с моделями, результаты значительно ухудшились. С помощью LLM участники назвали релевантное состояние только в 34,5% случаев — меньше, чем контрольная группа, которая проводила собственное исследование (47%). Пользователи, которым помогали модели, также не смогли превзойти контрольную группу в выборе правильного курса действий.
В исследовании этот недостаток объясняется тем, как люди и машины взаимодействуют друг с другом, а не самими моделями. Пользователи
Читать на habr.com

