
ИИ не способен адекватно оценивать тексты, написанные человеком — исследование ученых из Кембриджа
Как сообщает научный портал Phys.org, ученые обнаружили странную закономерность в том, как именно машины начисляют баллы и на что они обращают внимание в первую очередь. И это плохие новости для тех, кого уже оценивает искусственный интеллект.
Смотрите также Ни одной живой души: местная газета в США оказалась искусственным интеллектом, имитирующим журналистов
Алгоритм vs человек: кто побеждает
Современное высшее образование все чаще сталкивается с вызовами, которые приносят новейшие технологии. Стремясь упростить и автоматизировать процесс проверки знаний, ученые решили протестировать возможности современных технологий в роли экзаменаторов.
Команда психологов и экспертов по искусственному интеллекту под руководством Кембриджского университета провела масштабное исследование, результаты которого изложены в отчете OpRaise под названием "ИИ в университетском оценивании: оценка возможностей и рисков автоматизированной маркировки".
Не полагайтесь на случай в ленте Добавьте 24 Канал в избранное в Google ДобавитьИсследователи протестировали три передовые системы, включая последние версии Claude, ChatGPT (GPT–5.4) и Gemini 3 Flash, на базе 761 эссе студентов-психологов из трех университетов Великобритании – Кембриджского, Ноттингемского и Университета Манчестер Метрополитен.
Результаты оказались неутешительными:
- ИИ совпадал с оценками преподавателей только в 35 – 65% случаев.
- Самую высокую точность зафиксировали в Кембридже (63%).
- В Манчестер Метрополитен она упала до критических 35%.
Основной проблемой стала так называемая "предвзятость центральной тенденции". Алгоритмы склонны ставить "средние" баллы всем подряд, искусственно завышая оценки слабым студентам и существенно занижая их лучшим. Например, эссе, которое человек оценил на
Читать на 24tv.ua