Об этом же в других СМИ

cursorinfo.co.il / 1 месяц назад

Простой тест показывает, что человек умрет в течение нескольких часов

habr.com / 1 месяц назад

Luxms BI на Всероссийских ИТ-Играх 2026

gagadget.com / 1 месяц назад

Stoke Space готовит ответ Маску: ракета Nova прошла критические испытания

habr.com / 1 месяц назад

ИИ спроектировал вакцину от ковида и будущих пандемий — и она впервые прошла испытание на людях

gagadget.com / 1 месяц назад

Star Wars: Zero Company выйдет уже в конце августа: тактическая игра от разработчиков XCOM получила первый геймплейный трейлер

Больше по теме

26.05.2026 - 14:53 / habr.com

«Тест Тьюринга — игра во вранье, и ИИ в ней очень хорош»: GPT-4.5 прошла расширенный «тест на человека»

Журнал Proceedings of the National Academy of Sciences опубликовал прошедшую рецензирование версию исследования Кэмерона Джонса и Бена Бергена из Калифорнийского университета в Сан-Диего — той самой работы, которая год назад в виде препринта на arXiv впервые эмпирически показала, что языковые модели проходят классический трехсторонний тест Тьюринга. Главное отличие от препринта — добавленный третий эксперимент с 15-минутными разговорами вместо пятиминутных. На длинных диалогах GPT-4.5 принимали за человека в 59% случаев, LLaMa-3.1-405B — в 56%. Это статистически неотличимо от настоящих людей, с которыми их сравнивали.

Год назад препринт уже привлек внимание цифрой 73% — именно так часто GPT-4.5 в пятиминутных разговорах принимали за человека, то есть чаще, чем реальных людей. Главное возражение скептиков было методологическим: пять минут — слишком мало, чтобы по-настоящему раскрутить собеседника на проверочные вопросы; дайте больше времени, и модель посыпется. В PNAS-версии авторы выполнили это требование.

Картина по цифрам теперь такая. С ролевой инструкцией (persona prompt) — отдельным промптом, где модели прямо предписывают вести себя как конкретный человек с тоном, юмором, опечатками и неуверенностью — GPT-4.5 в пятиминутных диалогах набирала 73%, LLaMa-3.1 — 56%. Без такой инструкции те же модели падают до 36% и 38% — то есть участники начинают вычислять их сразу. В новом, 15-минутном эксперименте две модели с ролевой инструкцией удержали 59% и 56%.

В абстракте PNAS появилась еще одна вещь, которой не было в препринте — анализ того, на что ориентировались участники, пытаясь отличить бота от человека. Оказалось, что в основном не на интеллект и не на способность решать задачи, а на стилистические и

люди закон общество самит runawayllm Сан-Диего

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Игра с огнем. Топ-10 крупнейших техногенных катастроф в истории человечества focus.ua / 1 месяц назад

Глобальный дебют Magic V6 от Honor: агрессивная маркетинговая игра с телевизором в комплекте gagadget.com / 1 месяц назад

Ассамблея Калифорнии одобрила законопроект о сохранении доступа к играм после закрытия их серверов habr.com / 1 месяц назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

24.07 / 02:39

происшествия история ядерное оружие самит пилот Одна из самых странных ядерных катастроф – что произошло в 1968 году

Ошибка пилота превратила рутинный вылет в смертельную ловушку для экипажа. Пожар на борту заставил военных эвакуироваться посреди полярной ночи.

24.07 / 01:50

происшествия золото история самит археология Пропуск в загробный мир: в Египте нашли гробницы с золотыми языками

Ученые связывают обнаруженные гробницы с античным торговым городом Левкаспис. Этот крупный прибрежный центр процветал во времена Римской империи.

23.07 / 23:30

люди экономика общество человек Здоровье и красота Почему людям с ожирением так трудно похудеть - исследование

Ученые изучили данные 1754 человек и обнаружили необычную реакцию организма на увеличение физических нагрузок.

23.07 / 23:17

продукты Alibaba представила Qwen3.8 — 2,4-триллионную ИИ-модель и пообещала открыть ее веса

Alibaba анонсировала новую флагманскую модель Qwen3.8. Китацы заявляют, что модель содержит 2,4 трлн параметров. Обещают и выложить веса.

23.07 / 22:49

Огурцы по-корейски — хрустящая закуска с насыщенным вкусом - Журнал "ФОКУС ВНИМАНИЯ"

Огурцы по-корейски — одна из самых популярных корейских закусок, которая сочетает свежесть овощей, пикантные специи и насыщенный аромат кунжутного масла.

23.07 / 22:49

Как изменился путь клиента: сегодня вас «гуглят» раньше, чем покупают - Журнал "ФОКУС ВНИМАНИЯ"

Еще несколько лет назад путь клиента выглядел достаточно просто. Человек увидел рекламу, перешёл на сайт, посмотрел предложение, пообщался с менеджером и принял решение.

23.07 / 22:28

продукты связь технологии экспорт общество Документация Delta Design обновилась: варианты исполнений, веб-панель Identity, новые аппертуры DeltaCAM

Сегодня в пользовательской документации Eremex вышло несколько новых статей, а также провели техническое обслуживание самого сайта: поправили битые ссылки, ускорили загрузку и улучшили поиск.

23.07 / 22:28

технологии Центробанк деньги закон общество Центробанк предложил запретить подросткам регистрировать электронные кошельки без согласия родителей

Центробанк предложил перекрыть ещё один канал, через который мошенники вовлекают подростков в финансовые схемы, пишут «Известия». В рамках пакета «Антифрод 3.0» несовершеннолетним могут запретить регистрировать электронные средства платежа (ЭСП) без согласия родителей. Поправки затронут подростков в возрасте от 14 до 18 лет.

23.07 / 22:28

реклама СМИ общество самит Ozon В России зафиксировали рост доли ИИ-трафика на сайтах СМИ и электронной коммерции

Лидерами по количеству ИИ‑трафика в июне 2026 года стали сайты электронной коммерции и медиа, рассказали «Ъ» в Servicepipe. На нейросети и ботов, которые обращаются к ресурсам СМИ и e‑com, приходится по 1% от всего трафика, анализируемого компанией. За аналогичный период 2025 года у СМИ было 0,5%, у e‑com — 0,3%. При этом в период крупных распродаж доля ботов на ресурсах электронной коммерции вырастала в пике до 3%, а на новостных сайтах в дни острых информационных поводов — до 3,5%, говорят в компании.

23.07 / 22:28

связь происшествия общество спецслужбы мода и стиль Регулятор США планирует запретить компаниям продавать продукцию DJI под другими брендами

Федеральная комиссия по связи США (FCC) планирует запретить продукцию компаний, подозреваемых в продаже переименованных и модифицированных дронов и камер китайской DJI. В частности, ведомство намерено запретить ввоз и реализацию продукцию компаний Cogito, Fikaxo, Lyno Dynamics, Skyhigh Tech, Spatial Hover, SZ Knowact, WaveGo, Xtra и XAG. FCC подчёркивает, что эти товары «представляют неприемлемый риск» для национальной безопасности США.

Лента новостей

На главную страницу