ИИ впервые официально прошел строгий тест Тьюринга
Исследователи из университета Сан-Диего опубликовали статью, в которой впервые эмпирически доказали устойчивое прохождение ИИ-системой классического теста Тьюринга: Win Rateновой модели OpenAI GPT-4.5 составил 73%.
Может показаться, что тест Тьюринга в наше время устарел, и языковые модели уже давно его "победили". Поэтому сразу сделаем важную оговорку: статьи с некоторыми замерами способностей ИИ на тесте Тьюринга действительно выходили уже много раз. Но, во-первых, если модели и выбивали результат выше 50%, он все еще был нестабилен и близок к случайному угадыванию. И, во-вторых, часто в этих работах рассматривался не оригинальный трехсторонний вариант испытания, а какие-то упрощенные суррогаты.
Что подразумевает трехсторонний вариант теста? Это значит, что в каждом эксперименте участвуют два человека и бот. Участник-интеррогатор получает в руки две параллельные переписки с человеком и ботом, 5 минут задает любые вопросы и использует любые стратегии, чтобы понять, где кто, а затем – голосует.
Именно таким образом исследователи из Сан-Диего тестировали модели. Они ставили эксперименты с GPT-4.5, LLaMa-3.1-405B, GPT-4o и самой древней языковой моделью ELIZA.
Лирическое отступление: ELIZA, несмотря на то, что она родом еще из 60-х годов прошлого века, – очень интересная модель. Даже в этом исследовании она (осторожно, спойлер) показывала себя лучше современной GPT-4o. Если хотите почитать о ней подробнее, то приглашаем вас в наш тг-канал Data Secrets: мы выкладывали целую серию иллюстрированных постов про историю ИИ и NLP.
А еще в канале мы (а мы – это команда действующих ML-инженеров) каждый день делимся прикладными конспектами по ML, разборами ключевых свежих статей и вот такими интересными новостями. Так
Читать на habr.com

