Об этом же в других СМИ

habr.com / 10 месяцев назад

ИИ Claude уже месяц работает хуже обычного. Anthropic принимает меры

habr.com / 10 месяцев назад

Глава «Сбера» объяснил, как улучшить работу искусственного интеллекта

forbes.ua / 10 месяцев назад

«Вдохновлялись Duolingo». Как EdTech-компании работают с государством, помогают студентам и тестируют ИИ-преподавателей. Опыт GoIT и Buki на Forbes University

forbes.ua / 10 месяцев назад

«Вузы планируют на годы, бизнес – на квартал». Как компаниям работать с университетами и наоборот? Формулы успеха КШЭ, УКУ, Ajax Systems и Genesis

gagadget.com / 10 месяцев назад

Дія первой в мире ввела искусственный интеллект в сфере предоставления государственных услуг - как это работает

Больше по теме

24.08.2025 - 04:21 / habr.com

Хватит тестировать в лаборатории: Inclusion Arena показывает, как LLM работают в реальности

Бенчмарки стали неотъемлемым инструментом для компаний: они позволяют понять, какие модели лучше соответствуют их задачам. Но далеко не все тесты одинаково полезны — многие из них строятся на статичных датасетах и искусственных условиях.

Исследователи из Inclusion AI, связанной с Ant Group корпорации Alibaba, предложили новый формат рейтинга и тестирования моделей. Он делает акцент на том, как языковые модели ведут себя в реальных сценариях, и оценивает не только их знания, но и то, насколько пользователям нравятся их ответы.

В своей работе учёные описали платформу Inclusion Arena — живой лидерборд, который ранжирует модели по предпочтениям пользователей.

«Чтобы закрыть пробелы, мы предлагаем Inclusion Arena — живой рейтинг, который соединяет реальные AI‑приложения с передовыми LLM и MLLM. В отличие от краудсорсинговых решений, наша система случайным образом запускает „битвы моделей“ прямо во время многотуровых диалогов человек — ИИ в настоящих приложениях», — говорится в статье.

Inclusion Arena выгодно отличается от привычных рейтингов вроде MMLU и OpenLLM своей привязанностью к практике и оригинальным методом ранжирования. Она использует модель Брэдли — Терри, знакомую по Chatbot Arena.

Принцип прост: Inclusion Arena интегрируется в реальные AI‑приложения, собирает данные и проводит оценки с участием людей. Авторы признают, что пока количество приложений ограниченно, но ставят цель создать открытую экосистему, где смогут участвовать многие.

Сегодня рынок наводнён всевозможными рейтингами: у каждой новой LLM от OpenAI, Google или Anthropic почти сразу появляются показатели в разных тестах. Так, Grok 3 от xAI сумел выбиться в лидеры Chatbot Arena. Но исследователи из Inclusion AI настаивают: их система лучше отражает настоящую

люди общество самит интересное google dmitrifriend

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Деньги не главное. В xAI из Meta✶ перешли как минимум 14 специалистов по ИИ habr.com / 10 месяцев назад

Хватит вручную запускать скрипты на десятках серверов — автоматизируйте habr.com / 10 месяцев назад

Nvidia GB300: 288 ГБ, PCIe 6, 1400 Вт — тот случай, когда «ещё больше всего» действительно работает habr.com / 10 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 21:57

Sony Разработчикам эмулятора KytyPS5 удалось запустить GTA V, Quake II и другие трёхмерные игры

Разработчики эмулятора PlayStation 5 KytyPS5 выпустили обновление, в котором им впервые удалось запустить GTA V, QuakeII и другие трёхмерные игры. Проекты запускаются с разной производительностью, но разработчики считают, что сейчас важно добиться максимальной совместимости.

16.07 / 20:25

технологии происшествия Apple вирус самит На Mac обнаружили опасный вирус CrashStealer, который маскируется под системную утилиту Apple

Специалисты Jamf Threat Labs обнаружили новое вредоносное ПО для macOS под названием CrashStealer, которое выдает себя за встроенную систему отправки отчетов об ошибках Apple. По данным исследователей, вирус способен незаметно похищать конфиденциальную информацию пользователя, включая пароли, данные браузеров и криптовалютных кошельков.

16.07 / 19:57

здоровье общество депрессия лечение антидепрессанты Какие лекарства нельзя принимать на ночь - предупреждение медиков

Некоторые препараты могут слабо проявлять свое действие. если пить их на ночь, а некоторые и вовсе нанести вред здоровью.

16.07 / 19:57

связь здоровье алкоголь общество болезнь Какое количество алкоголя резко увеличивает риск болезней

Безопасной дозы спиртного не существует, говорят врачи, но есть смертельно опасная доза.

16.07 / 19:48

технологии Яндекс Telegram общество политика «Солар»: злоумышленники используют спрос на инструменты для обхода блокировок Telegram

С февраля 2026 года Роскомнадзор ограничивает работу мессенджера Telegram на территории России. Пользователи пытаются обойти ограничения и ищут доступные способы на просторах интернета. Этим начали пользоваться злоумышленники. Эксперты центра исследования киберугроз Solar 4RAYS ГК «Солар», ведущего провайдера комплексной кибербезопасности в России, обнаружили в топе поисковой выдачи вредоносные клоны популярных прокси-сервисов. Причем размещены они как на официальной платформе для хостинга ИТ-проектов GitHub, так и на ее зеркалах.

16.07 / 19:48

продукты технологии происшествия политика вирус Гарда повысила уровень защиты веб-приложений и ускорила обработку запросов

Мы выпустили новую версию межсетевого экрана уровня приложений «Гарда WAF» 3.2.

16.07 / 19:26

Samsung технологии Qualcomm Pink Складные смартфоны Почти без изменений, но дороже: инсайдер раскрыл характеристики, цены и цвета складного Samsung Galaxy Z Flip 8

Авторитетный немецкий инсайдер Роланд Квандт (Roland Quandt) продолжает сливать подробности складных флагманов Samsung. Он уже раскрыл все характеристики Galaxy Z Fold 8 и Galaxy Z Fold 8 Ultra и поделился информацией о Galaxy Z Flip 8, который, по слухам, может стать последним смартфоном этой серии.

16.07 / 19:26

продукты история прогноз Шоу бизнес Take-Two GTA VI может принести разработчикам до $5,2 млрд за первую неделю после релиза — аналитики поделились новым прогнозом

Информация портала APP. о том, что за первые сутки после старта предзаказов GTA VI было продано 39 млн копий, оказалась ими неправильно интерпретирована и обозначала ожидаемые показатели за первый год. Теперь же аналитическое агентство Newzoo поделилось собственным прогнозом, который выглядит вполне реалистично, хотя цифры выглядят не менее впечатляюще.

16.07 / 19:03

люди здоровье дети общество климат Сколько воды нужно пить для здоровья сердца и суставов

Достаточное потребление воды может значительно снизить риск сердечно-сосудистых заболеваний и проблем с суставами, утверждают врачи.

16.07 / 19:03

бизнес люди деньги общество политика Люди, родившиеся в эти дни, склонны становиться богатыми

Какие числа связаны с успехом, богатством и известностью, рассказали нумерологи.

Лента новостей

На главную страницу