Модель искусственного интеллекта OpenAI иногда «думает» на китайском, и никто не знает почему
Вскоре после того, как OpenAI выпустила o1, свою первую «рассуждающую» модель AI, люди начали замечать любопытное явление. Модель иногда начинала «думать» на китайском, персидском или каком-либо другом языке, даже если ей задавали вопрос на английском.
Получив вопрос, например: «Сколько букв «Р» в слове «клубника»?», o1 начинает размышлять и приходит к ответу, используя логические рассуждения. Если вопрос был задан на английском языке, то и ответ o1 даст на английском. Однако перед тем как прийти к ответу, модель выполняет несколько действий на другом языке.
«o1 внезапно начал думать по-китайски в середине процесса», — написал один пользователь на Reddit.
«Почему o1 вдруг начал думать по-китайски?» — спросил другой пользователь в сообщении на X. «Ни один из фрагментов разговора (более 5 сообщений) не был на китайском».
Компания OpenAI не дала разъяснений по поводу странного поведения модели o1 и даже не признала его. Однако некоторые пользователи, включая генерального директора Hugging Face Клемана Деланжа, обратили внимание на то, что модели рассуждений, подобные o1, обучаются на наборах данных, содержащих большое количество китайских иероглифов.
Тед Сяо, исследователь из Google DeepMind, отметил, что такие компании, как OpenAI, используют сторонние сервисы для маркировки китайских данных. Он также заявил, что переход модели o1 на китайский язык является примером «китайского лингвистического влияния на рассуждения».
«Такие лаборатории, как OpenAI и Anthropic, используют сторонние сервисы по маркировке данных для научных, математических и программистских задач на уровне докторантуры, — написал Сяо в посте на X. — Из-за нехватки квалифицированной рабочей силы и дороговизны многие из этих поставщиков данных находятся в Китае».
Ме
Читать на habr.com