Об этом же в других СМИ

gagadget.com / 2 года назад

Дания оснастит свои истребители F-35 новейшими ракетами AIM-120 AMRAAM

chudo.tech / 2 года назад

В Дании показали первый электрический скейтборд с круиз-контролем без пульта

chudo.tech / 2 года назад

В Китае открыли центр создания и обучения роботов-гуманоидов

habr.com / 2 года назад

ГК InfoWatch будет бесплатно предоставлять свой софт для обучения студентов

Больше по теме

24.05.2024 - 05:32 / habr.com

Данные обучения китайских токенов GPT-4o оказались заспамлены и содержат порнозапросы

Тианле Цай, аспирант Принстонского университета, изучающий эффективность вывода в больших языковых моделях, получил доступ к библиотеке токенов GPT-4o и извлёк список из 100 самых длинных китайских токенов, которые ИИ использует для анализа и вывода подсказок на китайском языке. Ранее пользователи из КНР пожаловались, что GPT-4o выдаёт ответы со спамом и элементами порно.

Из 100 токенов только три кодировали информацию, используемую в повседневных беседах; остальные представляли собой слова и выражения, которые обычно употребляются в контексте азартных игр или порнографии. Самый длинный токен, состоящий из 10,5 китайских иероглифов, буквально означает «бесплатное японское порновидео для просмотра».

Цай разместил список токенов на GitHub.

Предполагается, что GPT-4o лучше предшественников справляется с многоязычными задачами. В частности, успехи достигнуты благодаря новому инструменту токенизации, который лучше сжимает тексты на неанглийских языках. Однако в случае с китайским языком новый токенизатор содержит непропорционально большое количество бессмысленных фраз. Эксперты говорят, что это, вероятно, связано с недостаточной очисткой и фильтрацией данных до обучения.

Поскольку эти токены не являются общепринятыми словами или фразами, чат-бот может не понять их значения. Исследователи смогли использовать это и заставить GPT-4o галлюцинировать или даже обойти цензуру OpenAI.

Всего в новом токенизаторе 200 тысяч токенов, и около 25% из них написаны не на английском языке, говорит Диди Дас, инвестор в Menlo Ventures. Он использовал языковые фильтры для подсчёта количества токенов на разных языках, а самыми популярными, помимо английского, являются русский, арабский и вьетнамский.

«На мой взгляд, основной эффект токенизатора

самит инвестор google крипто токен maybeelf Китай

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Сравни запускает бесплатный онлайн-курс «Дизайн систем машинного обучения» habr.com / 2 года назад

Нидерланды вместе со Швецией и Данией закупят для Украины боевые машины CV90 gagadget.com / 2 года назад

Токен Халка Хогана обвалился на 85% после удаления рестлером постов с рекламой актива incrypted.com / 2 года назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

17.07 / 20:44

Samsung технологии reddit Samsung объяснила странный дефект экрана Galaxy S26 Ultra: проблема оказалась не такой серьезной, как опасались владельцы

Некоторые владельцы Samsung Galaxy S26 Ultra обратили внимание на необычную особенность дисплея нового флагмана. При использовании смартфона на максимальной яркости под прямыми солнечными лучами в центральной части экрана может появляться легкий красноватый оттенок. Сначала пользователи предположили, что речь идет о серьезной аппаратной неисправности, однако Samsung уже выступила с официальным разъяснением и подтвердила, что готовит программное исправление.

17.07 / 20:12

продукты медицина общество самит жара Как охладить кровать за 10 минут - простой трюк, спасающий от жары

Жаркие летние ночи часто становятся настоящим испытанием, но есть способ с этим справиться.

17.07 / 20:12

туризм общество евро курорт пляж Популярные курорты атакует рыба-монстр - может раздробить кости

На опасное существо начали жаловаться рыбаки, ее уже замечают туристы на популярных пляжах.

17.07 / 20:12

связь люди книги психология Психология и отношения Ученый раскрыл "секрет счастья" - все проще, чем кажется

Известный ученый рассказал, что его жизнь буквально разделилась на две части и после 50 лет он стал счастливым.

17.07 / 20:12

здоровье общество самит Здоровье и красота полезные продукты Какие грибы могут обеспечить надежную защиту от рака

Врачи и диетологи советуют чаще включать в свой рацион грибы - особые элементы в их составе могут надежно защитить от развития раковых клеток.

17.07 / 19:26

самит дети и родители MacRumors 1Password получил интеграцию с Claude: ИИ теперь может входить на сайты без доступа к вашим паролям

Компания 1Password официально объявила о запуске интеграции с ИИ-платформой Claude от Anthropic. Новая функция позволяет искусственному интеллекту использовать сохраненные в менеджере паролей учетные данные для выполнения действий в браузере, при этом сами пароли остаются недоступными как для Claude, так и для серверов Anthropic.

17.07 / 19:26

СМИ общество самит doom Software Аша Шарма не выпотрошила id Software: глава студии призвал не верить пессимистичным заголовкам

id Software стала одной из самых пострадавших студий в ходе “большой перезагрузки” XBOX, запущенной Ашей Шармой (Asha Sharma). Авторы культовых шутеров Doom, Wolfenstein и Quake потеряли 136 человек (из 185) и даже утверждалось, что в студии не осталось никого, кто умеет работать с движком id Tech и другим специфическим инструментарием.

17.07 / 18:47

люди общество болезнь деменция симптомы Эффективная профилактика деменции - как уберечь себя и близких

Эксперты рассказали, как уберечь себя и своих родных от тяжелого возрастного заболевания.

17.07 / 18:38

люди общество самит психология Психология и отношения Как вежливо поставить на место токсичного человека - 10 лучших фраз

Вероятно, каждому из нас доводилось сталкиваться с грубым и неприятным собеседником. Как правильно поставить его на место, не опускаясь до грубости?

17.07 / 18:38

связь люди здоровье климат самоубийство Как глобальное потепление связано с самоубийствами - ответ ученых

Ученые проанализировали последствия глобального потепления, связанные с самоубийствами.

Лента новостей

На главную страницу