
Данные обучения китайских токенов GPT-4o оказались заспамлены и содержат порнозапросы
Тианле Цай, аспирант Принстонского университета, изучающий эффективность вывода в больших языковых моделях, получил доступ к библиотеке токенов GPT-4o и извлёк список из 100 самых длинных китайских токенов, которые ИИ использует для анализа и вывода подсказок на китайском языке. Ранее пользователи из КНР пожаловались, что GPT-4o выдаёт ответы со спамом и элементами порно.
Из 100 токенов только три кодировали информацию, используемую в повседневных беседах; остальные представляли собой слова и выражения, которые обычно употребляются в контексте азартных игр или порнографии. Самый длинный токен, состоящий из 10,5 китайских иероглифов, буквально означает «бесплатное японское порновидео для просмотра».
Цай разместил список токенов на GitHub.
Предполагается, что GPT-4o лучше предшественников справляется с многоязычными задачами. В частности, успехи достигнуты благодаря новому инструменту токенизации, который лучше сжимает тексты на неанглийских языках. Однако в случае с китайским языком новый токенизатор содержит непропорционально большое количество бессмысленных фраз. Эксперты говорят, что это, вероятно, связано с недостаточной очисткой и фильтрацией данных до обучения.
Поскольку эти токены не являются общепринятыми словами или фразами, чат-бот может не понять их значения. Исследователи смогли использовать это и заставить GPT-4o галлюцинировать или даже обойти цензуру OpenAI.
Всего в новом токенизаторе 200 тысяч токенов, и около 25% из них написаны не на английском языке, говорит Диди Дас, инвестор в Menlo Ventures. Он использовал языковые фильтры для подсчёта количества токенов на разных языках, а самыми популярными, помимо английского, являются русский, арабский и вьетнамский.
«На мой взгляд, основной эффект токенизатора
Читать на habr.com