«Тест Тьюринга — игра во вранье, и ИИ в ней очень хорош»: GPT-4.5 прошла расширенный «тест на человека»
Журнал Proceedings of the National Academy of Sciences опубликовал прошедшую рецензирование версию исследования Кэмерона Джонса и Бена Бергена из Калифорнийского университета в Сан-Диего — той самой работы, которая год назад в виде препринта на arXiv впервые эмпирически показала, что языковые модели проходят классический трехсторонний тест Тьюринга. Главное отличие от препринта — добавленный третий эксперимент с 15-минутными разговорами вместо пятиминутных. На длинных диалогах GPT-4.5 принимали за человека в 59% случаев, LLaMa-3.1-405B — в 56%. Это статистически неотличимо от настоящих людей, с которыми их сравнивали.
Год назад препринт уже привлек внимание цифрой 73% — именно так часто GPT-4.5 в пятиминутных разговорах принимали за человека, то есть чаще, чем реальных людей. Главное возражение скептиков было методологическим: пять минут — слишком мало, чтобы по-настоящему раскрутить собеседника на проверочные вопросы; дайте больше времени, и модель посыпется. В PNAS-версии авторы выполнили это требование.
Картина по цифрам теперь такая. С ролевой инструкцией (persona prompt) — отдельным промптом, где модели прямо предписывают вести себя как конкретный человек с тоном, юмором, опечатками и неуверенностью — GPT-4.5 в пятиминутных диалогах набирала 73%, LLaMa-3.1 — 56%. Без такой инструкции те же модели падают до 36% и 38% — то есть участники начинают вычислять их сразу. В новом, 15-минутном эксперименте две модели с ролевой инструкцией удержали 59% и 56%.
В абстракте PNAS появилась еще одна вещь, которой не было в препринте — анализ того, на что ориентировались участники, пытаясь отличить бота от человека. Оказалось, что в основном не на интеллект и не на способность решать задачи, а на стилистические и
Читать на habr.com
