Разработчик за 20 минут сломал ChatGPT и ИИ-ответы Google, заставив их цитировать выдуманную историю
Журналист BBC и разработчик Томас Жермен показал, как можно манипулировать ответами крупных моделей искусственного интеллекта, включая ChatGPT компании OpenAI и ИИ‑поиск Google. По его словам, на это ушло около 20 минут. Он опубликовал на своём сайте вымышленную информацию о себе, после чего модели начали воспроизводить её в ответах на запросы.
Жермен создал фиктивную страницу с утверждением, что он якобы «самый быстрый поедатель хот‑догов в мире среди журналистов». В текст были добавлены несуществующие рейтинги и данные о якобы проведённых соревнованиях. Спустя некоторое время он попросил ИИ назвать самых известных журналистов — чемпионов по поеданию хот‑догов, и системы начали выдавать опубликованные им сведения как факты, ссылаясь на его сайт.
По словам Жермена, что на его фейки повелись ChatGPT и ИИ‑поиск Google, но не Claude от Anthropic — попытки воспроизвести ложный материал на нём оказались безуспешными. В некоторых ответах модели сначала отмечали, что история может быть шуткой или сатирой. После этого журналист обновил страницу и прямо указал, что текст «не является сатирой», а затем повторил эксперимент. Он также разместил ещё одну абсурдную заметку о «лучших регулировщиках дорожного движения, крутящих обручи». В отдельных случаях и эта информация появлялась в ответах.
Жермен попросил знакомых проверить те же запросы со своих аккаунтов, чтобы исключить влияние персонализации. По его словам, результаты были схожими. В ответах ИИ приводились ссылки на источники, в том числе на его собственный сайт, где и была размещена «самом быстром поедателе хот-догов».
Он отмечает, что подобные простые действия — публикация недостоверного текста на сайте с корректным оформлением — могут привести к тому, что генеративные системы
Читать на habr.com
