Об этом же в других СМИ

gagadget.com / 1 год назад

Samsung запускает бета-программу One UI 8: первые обновления получат Galaxy S25 и новые складные модели

ilenta.com / 1 год назад

Новейшие ИИ-модели OpenAI отказываются выключаться по команде

habr.com / 1 год назад

Mistral представляет Devstral Small 24B — новую языковую модель с открытым исходным кодом для программирования

cursorinfo.co.il / 1 год назад

Как переработка влияет на мозг человека - ученые напугали результатами исследования

Больше по теме

09.05.2025 - 13:40 / habr.com

Большие языковые модели в медицине: результаты исследования Оксфорда

Новое исследование Оксфордского университета показывает, что, хотя большие языковые модели (LLM) справляются с медицинскими тестами наравне с врачами, их эффективность резко снижается при взаимодействии с реальными пациентами. В рандомизированном контролируемом исследовании, проведённом Оксфордским интернет-институтом, приняли участие 1298 человек из Великобритании.

Участников попросили проработать десять реалистичных медицинских сценариев. В каждом случае они должны были определить возможную причину своих симптомов и выбрать подходящий способ лечения — от самопомощи до обращения к врачу общей практики или в отделение неотложной помощи. Некоторые участники получали помощь от большой языковой модели, в то время как другие могли свободно искать информацию в Google.

Среди оцениваемых моделей были GPT-4o от OpenAI, Llama 3 от Meta* и Command R+ от Cohere.

При прямом запросе в тестовых сценариях языковые модели давали убедительные ответы. GPT-4o определял хотя бы одно релевантное условие в 94,7% случаев и рекомендовал правильное действие в 64,7% случаев. Llama 3 достигала 99,2% точности в определении условий, а Command R+ — 90,8%. Их рекомендации по следующим шагам были правильными в 48,8% и 55,5% случаев соответственно.

Однако, как только пользователи начали взаимодействовать с моделями, результаты значительно ухудшились. С помощью LLM участники назвали релевантное состояние только в 34,5% случаев — меньше, чем контрольная группа, которая проводила собственное исследование (47%). Пользователи, которым помогали модели, также не смогли превзойти контрольную группу в выборе правильного курса действий.

В исследовании этот недостаток объясняется тем, как люди и машины взаимодействуют друг с другом, а не самими моделями. Пользователи

медицина люди общество самит лечение симптомы mefdayy Англия

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Volvo интегрирует в свои автомобили языковую модель Gemini от Google habr.com / 1 год назад

«Яндекс»: китайская языковая модель DeepSeek может усилить конкуренцию в сфере ИИ habr.com / 1 год назад

Google добавляет еще больше рекламы в результаты поиска по ИИ hitechexpert.top / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

12.07 / 14:40

люди общество жизнь человек Солнце Как первые люди спасались от палящего солнца - ответ ученых

Исследователи выяснили, как люди защищали кожу от солнца десятки тысяч лет назад при отсутствии специальных кремов.

12.07 / 14:05

экономика пенсия самит автомобили интересное Китайская Weichai Power сертифицировала 600-сильный водородный двигатель: дизелю на пенсию?

Пока мир ведёт ожесточённые споры о весе аккумуляторов для магистральных грузовиков и целесообразности полной электрификации, китайцы из Weichai Power решили пойти по пути наименьшего сопротивления. Они взяли привычную архитектуру двигателя внутреннего сгорания и научили её работать на водороде. Их новый агрегат WP15 только что прошёл сертификацию по экологическому стандарту China VI, став первым в мире тяжёлым водородным ДВС, официально допущенным к коммерческой эксплуатации.

12.07 / 13:46

Samsung мода и стиль Thermaltake Capo X: Двухэтажный небоскреб для ПК за $190

Если вы когда-либо мечтали о том, чтобы запихнуть два компьютера в один корпус, но не хотели строить для этого отдельный серверный шкаф, Thermaltake имеет для вас решение. После июньских анонсов на Computex, нетипичный корпус Capo X наконец поступил в продажу. Цена вопроса — $190 (8500 грн), что по меркам специфического железа выглядит вполне разумно, если вы понимаете, зачем вам такой гигант на столе.

12.07 / 13:46

технологии Apple книги мода и стиль криптобиржи HMD Asha 305: ностальгия за копейки или очередная попытка продать пластик?

HMD Global продолжает своё экскурсию по кладбищу забытых брендов. Компания, которая постепенно отказывается от названия Nokia в пользу собственного имени, решила, что настало время для «триумфального» возвращения Asha. Когда-то это были промежуточные устройства между обычными «звонилками» и смартфонами, но новая итерация HMD Asha 305 — это чистокровный, хоть и крайне скромный, Android-смартфон.

12.07 / 13:43

происшествия ученые общество вирус пандемия Внезапная пандемия хантавируса – ученые сделали важное предупреждение

Исследователи изучили весеннюю вспышку вируса на судне и пришли к выводу, что общественный страх опередил реальные факты.

12.07 / 13:15

технологии Acer представила смартфон Sospiro A15 с двумя экранами, Android 16 и камерой на 64 Мп

Acer Sospiro A15 оснащен 6,67-дюймовым IPS-дисплеем с разрешением HD+, частотой обновления 120 Гц и каплевидным вырезом под фронтальную камеру.

12.07 / 13:04

происшествия животные дети природа дети и родители Кошмар в США: гигантский крокодил напал на ребенка

Огромный хищник атаковал юного рыбака и намертво зажал его руку своими челюстями. Находившийся рядом отец сразу бросился на помощь сыну.

12.07 / 13:04

происшествия общество жизнь человек мозг Комары могут переносить болезнь, поражающую мозг - исследование

Ученые обнаружили вид комаров, укус которых может закончится параличом и представляет угрозу для жизни.

12.07 / 12:55

экономика общество криптовалюта Ethereum Binance Weekly: тактика Сэйлора против прогнозов JPMorgan, сила Binance, новые «фокусы» ИИ и криптооперация Интерпола

Редакция Incrypted подготовила для вас очередной дайджест о главных событиях в сфере Web3 за неделю. В нем мы расскажем о продаже биткоинов компанией Strategy, первых сигналах восстановления спроса на первую криптовалюту, новом этапе развития Ethereum, стремительном сближении традиционных финансов с блокчейном, масштабной экспансии ИИ и укреплении позиций Binance несмотря на регуляторное давление, а также о других ключевых трендах и вызовах отрасли. Главные но

12.07 / 12:38

связь экономика Госдума закон общество Госдума приняла закон о поддержке Почты России сразу в двух чтениях

Госдума 8 июля 2026 года приняла закон о поддержке Почты России во втором и третьем чтениях. Документ закрепляет новые правила работы оператора и вводит электронную почтовую систему для доставки юридически значимых сообщений.

Лента новостей

На главную страницу