

GPT-4 обгоняет среднего человека в креативности, но проигрывает лучшим 10%
В журнале Nature Human Behaviour вышло масштабное исследование креативности людей и больших языковых моделей. Ученые из Гонконгского университета и Северо-Западного университета сравнили 9198 человек с восемью LLM на тесте дивергентного мышления — в общей сложности 215 542 прогона моделей. Результаты неоднозначные: GPT-4 Turbo набрал 81.78 балла и обошел средний человеческий результат (78–80 баллов), Claude 3.5 Sonnet показал 80.01, а китайская Ernie 4.0 оказалась худшей с 76.17 балла. Но когда исследователи сравнили верхние 10% людей с лучшими 10% ответов GPT-4 Turbo, люди победили со статистической значимостью p < 0.001.
Для оценки использовался Divergent Association Task — тест, где нужно назвать 10 существительных, максимально непохожих друг на друга. Креативность измеряется алгоритмически через семантическую дистанцию между словами, без субъективных оценок жюри. Это принципиально: впервые ни люди, ни LLM не оценивают друг друга. Главное различие оказалось не в средних баллах, а в распределении. Дисперсия у людей значимо выше — есть и слабые, и выдающиеся результаты, тогда как модели выдают стабильную середину. При этом люди генерируют значимо больше уникальных слов: модели между сессиями повторяют одни и те же ответы вроде happiness и freedom.
Авторы вводят термин креативная мимикрия для описания того, как LLM симулируют оригинальность. Модели используют две стратегии: вытаскивают редкие слова из корпуса или полагаются на параметр температуры для внесения случайности. Но это не понимание смысла, а статистическая манипуляция. Показателен пример Claude: при низкой температуре модель 485 раз из 750 прогонов выдавала слово zephyr, при высокой — всего 38 раз, переключаясь на банальное freedom. GPT-модели при росте
Читать на habr.com
