Хватит тестировать в лаборатории: Inclusion Arena показывает, как LLM работают в реальности
Бенчмарки стали неотъемлемым инструментом для компаний: они позволяют понять, какие модели лучше соответствуют их задачам. Но далеко не все тесты одинаково полезны — многие из них строятся на статичных датасетах и искусственных условиях.
Исследователи из Inclusion AI, связанной с Ant Group корпорации Alibaba, предложили новый формат рейтинга и тестирования моделей. Он делает акцент на том, как языковые модели ведут себя в реальных сценариях, и оценивает не только их знания, но и то, насколько пользователям нравятся их ответы.
В своей работе учёные описали платформу Inclusion Arena — живой лидерборд, который ранжирует модели по предпочтениям пользователей.
«Чтобы закрыть пробелы, мы предлагаем Inclusion Arena — живой рейтинг, который соединяет реальные AI‑приложения с передовыми LLM и MLLM. В отличие от краудсорсинговых решений, наша система случайным образом запускает „битвы моделей“ прямо во время многотуровых диалогов человек — ИИ в настоящих приложениях», — говорится в статье.
Inclusion Arena выгодно отличается от привычных рейтингов вроде MMLU и OpenLLM своей привязанностью к практике и оригинальным методом ранжирования. Она использует модель Брэдли — Терри, знакомую по Chatbot Arena.
Принцип прост: Inclusion Arena интегрируется в реальные AI‑приложения, собирает данные и проводит оценки с участием людей. Авторы признают, что пока количество приложений ограниченно, но ставят цель создать открытую экосистему, где смогут участвовать многие.
Сегодня рынок наводнён всевозможными рейтингами: у каждой новой LLM от OpenAI, Google или Anthropic почти сразу появляются показатели в разных тестах. Так, Grok 3 от xAI сумел выбиться в лидеры Chatbot Arena. Но исследователи из Inclusion AI настаивают: их система лучше отражает настоящую
Читать на habr.com

