Об этом же в других СМИ

habr.com / 1 год назад

Руководители технологических компаний используют ИИ, чтобы заменить себя на конференциях

habr.com / 1 год назад

Аппаратное обеспечение OpenAI с ИИ будет «таким же компактным и элегантным, как iPod Shuffle»

habr.com / 1 год назад

Meta* запускает программу, призванную стимулировать стартапы к использованию моделей ИИ Llama

habr.com / 1 год назад

Новая модель ИИ от Anthropic переходит к шантажу, когда инженеры пытаются отключить её

habr.com / 1 год назад

Microsoft заявляет, что Aurora может точно прогнозировать качество воздуха, тайфуны и многое другое

Больше по теме

19.05.2025 - 05:12 / habr.com

OpenAI утверждает, что ее последние модели превосходят врачей по медицинским показателям

Компания OpenAI выпустила новый тест для проверки систем искусственного интеллекта в сфере здравоохранения. Он называется HealthBench и предназначен для оценки того, насколько хорошо языковые модели справляются с реалистичными медицинскими беседами. По словам OpenAI, её новейшие модели превосходят врачей в этом тесте.

Компания утверждает, что предыдущие тесты не соответствовали требованиям: они не отражали реального взаимодействия врача и пациента, не учитывали мнение медицинских экспертов и не были достаточно подробными, чтобы оценить прогресс в новых моделях. Чтобы исправить это, OpenAI сотрудничала с 262 врачами из 60 стран. Вместе они создали 5000 реалистичных медицинских сценариев по 26 специальностям и на 49 языках.

HealthBench охватывает семь областей медицины, от неотложной помощи до глобального здравоохранения. Каждое действие ИИ оценивается по пяти категориям: качество коммуникации, следование инструкциям, точность, понимание контекста и полнота. В общей сложности система применяет 48 000 обоснованных с медицинской точки зрения критериев оценки.

Подсчёт баллов выполняет GPT-4.1. Чтобы проверить, насколько это надёжно, OpenAI сравнил оценки модели с оценками врачей-людей. Результаты показали, что суждения GPT-4.1 соответствуют оценкам людей примерно на том же уровне согласованности, который наблюдается между разными врачами.

OpenAI утверждает, что его последние модели — GPT-4.1 и o3 — превзошли ответы врачей в тесте HealthBench. В ходе ранних тестов, проведённых в сентябре 2024 года, врачи могли улучшить результаты более старых моделей, редактируя их, в то время как ответы врачей без посторонней помощи получили самые низкие оценки. Но к апрелю 2025 года результаты изменились: GPT-4.1 и o3 превзошли врачей даже без

медицина люди общество семья самит google gemini mefdayy

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

OpenAI обновляет модель искусственного интеллекта, на которой работает агент Operator habr.com / 1 год назад

OpenAI и Джони Айв объединились для создания нового устройства с ИИ: что это? habr.com / 1 год назад

OpenAI обновил API Responses с помощью удалённых серверов MCP и новых инструментов habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 16:17

Apple закон самит google Google откроет Android для сторонних магазинов приложений уже на следующей неделе после поражения в суде

Компания Google официально подтвердила, что с 22 июля начнет выполнять требования постоянного судебного предписания, обязывающего открыть Android для альтернативных магазинов приложений. Решение стало следствием многолетнего судебного разбирательства с Epic Games, которое завершилось не в пользу технологического гиганта.

16.07 / 16:16

технологии история самит наушники google Skullcandy объединилась с Bose и выпустила самые продвинутые наушники в своей истории

Компания Skullcandy представила беспроводные наушники Crusher 1080 ANC, которые производитель называет самой продвинутой моделью в своей истории. Новинка стала результатом сотрудничества с Bose и впервые объединила фирменную технологию Crusher Bass с набором аудиотехнологий Sound by Bose.

16.07 / 16:16

самит обновления трейлеры Дом и интерьер симуляторы Почистите далекую-далекую галактику: в PowerWash Simulator 2 стартовал DLC-кроссовер со STAR WARS

Серия PowerWash Simulator славится неожиданными коллаборациями, в которых геймерам предлагалось проводить уборку в самых разных локациях из других франшиз — в доме Губки Боба, на базе Космодесантников из Warhammer 40000, в поместье Лары Крофт из Tomb Raider и даже отмыть культовый автомобиль DeLorean из фильма “Назад в будущее”. Сиквел, который вышел недавно, не нарушает традиций и сегодня стало доступно DLC, в тематике “Звездных войн”.

16.07 / 16:11

продукты люди общество Здоровье и красота лекарства Какие продукты категорически нельзя есть натощак - чревато болезнями

Фрукты, соки или кофе на голодный желудок могут стать причиной развития болезней органов ЖКТ.

16.07 / 16:09

технологии общество самит роды финансирование Bloomberg: глава DeepSeek стал самым богатым разработчиком ИИ-модели в мире

Китайский предприниматель Лян Вэньфэн, основатель и главный разработчик DeepSeek, стал самым богатым создателем ИИ‑моделей в мире. По данным индекса миллиардеров Bloomberg, его состояние оценивается почти в $36 млрд. По этому показателю он опережает других известных представителей отрасли, включая сооснователя Anthropic Дарио Амодеи (около $8 млрд) и Грега Брокмана из OpenAI ($25,5 млрд). Он, кроме того, признан восьмым богатейшим человеком Китая.

16.07 / 16:09

связь Apple СМИ политика самит Роскомнадзор: нет проблем с доступом к GitHub, Google и Apple

14 июля 2026 года в Роскомнадзоре заявили СМИ, что ведомство не ограничивает доступ к сервисам GitHub, Google и Apple.

16.07 / 16:09

общество политика рубль электромобиль мода и стиль Минпромторг обсуждает уменьшение скидки на покупку электромобилей и гибридов

Минпромторг обсуждает возможность корректировки программ льготного автокредитования и лизинга электромобилей и гибридов: рассматривается снижение размера скидки на покупку таких машин. Об этом пишет «Ъ» со ссылкой на собеседников в лизинговых компаниях и автопроме.

16.07 / 16:09

происшествия политика самит google Спустя 2 часа прошёл сбой в работе GitHub в РФ

14 июля 2026 года GitHub перестал работать в России на 2 часа. Пользователи жаловались, что сервис был недоступен без дополнительных сетевых средств. Не работал Git, сам сайт проекта не открывался, а также было невозможно получить доступ к репозиториям. Спустя 2 часа после начала проблемы сетевая ситуация улучшилась. Сейчас сервисы GitHub стали снова доступны в РФ штатно.

16.07 / 16:01

продукты здоровье самит Здоровье и красота похудение Минус три килограмма за неделю: что нужно добавить в воду

Эксперты назвали простой, безопасный и доступный способ поддержать организм, снизить аппетит и улучшить самочувствие.

16.07 / 15:42

продукты банк еда организм Дом и интерьер Дата роли не играет - консервы могут быть опасными для организма

Срок годности, который написан на крышке консервы, не всегда является определяющим фактором пригодности продукта.

Лента новостей

На главную страницу