Исследование утверждает, что OpenAI o1-preview превосходит врачей в диагностике сложных медицинских случаев
Новое исследование предполагает, что система искусственного интеллекта o1-preview от OpenAI может быть лучше в диагностике сложных медицинских случаев, чем человеческие врачи. Команда исследователей из Гарвардской медицинской школы и Стэнфордского университета провела всесторонние тесты медицинской диагностики для o1-preview. Их результаты показывают, что система AI сделала замечательные успехи по сравнению с предыдущими версиями.
Согласно исследованию, o1-preview правильно диагностировала 78,3% всех обследованных случаев. В прямом сравнении 70 конкретных случаев система показала еще лучшие результаты, правильно диагностировав 88,6% случаев, что значительно превосходит ее предшественника GPT-4, который справился с 72,9%.
Что касается медицинского мышления, производительность o1-preview была еще более впечатляющей. Используя шкалу R-IDEA, стандартную меру для оценки качества медицинского мышления, система ИИ достигла идеальных результатов в 78 из 80 случаев. Для сравнения, опытные врачи достигли идеальных результатов только в 28 случаях, а медицинские резиденты — всего в 16.
Исследователи признают, что некоторые тестовые случаи могли быть включены в обучающие данные o1-preview. Однако, когда они протестировали систему на новых случаях, с которыми она никогда не сталкивалась, ее производительность снизилась лишь незначительно.
Один из авторов исследования, доктор Адам Родман, подчеркивает исключительные результаты в X: "Это первый раз, когда я продвигаю один из наших препринтов (а не полное рецензируемое исследование), так что caveat emptor. Но я действительно считаю, что наши результаты имеют значение для медицинской практики, поэтому я хотел представить их как можно быстрее."
Система AI действительно проявила себя при решении
Читать на habr.com
