Китай обучает новую ИИ-модель на 100 миллиардов параметров
Китайский институт искусственного интеллекта China Telecom объявил, что успешно обучил модель с 100 миллиардами параметров, используя только вычислительные мощности, произведённые внутри страны. Это свидетельствует о том, что китайские компании, несмотря на санкции, ограничивающие поставки западных технологий, продолжают активно развивать свои возможности в сфере ИИ.
Модель, получившая название TeleChat2-115B, была представлена на GitHub 20 сентября. Согласно опубликованным данным, она была обучена с использованием 10 триллионов токенов, состоящих из китайского и английского текста. Важным моментом является то, что обучение велось на отечественной вычислительной инфраструктуре, без использования зарубежного оборудования.
В проекте упоминается использование серверов для обучения Ascend Atlas 800T A2, которые производит Huawei. Эти серверы работают на процессорах Kunpeng 920, созданных на архитектуре Arm 8.2 с применением 7-нанометрового техпроцесса. Хотя эта инфраструктура уступает по мощности западным аналогам, она продемонстрировала свою достаточность для выполнения задачи обучения модели с 100 миллиардами параметров.
TeleChat2-115B содержит меньше параметров, чем ведущие модели, такие как Llama с более чем 400 миллиардами параметров или OpenAI с её GPT-4о1 (приблизительно 200 миллиардов параметров). Тем не менее, несмотря на относительно небольшой объём параметров, эта модель способна решать задачи высокого уровня сложности, что доказывает эффективность китайской инфраструктуры даже без новейших GPU и других мощных вычислительных средств.
Несмотря на ограничения в доступе к передовым западным технологиям, Китай демонстрирует способность адаптироваться и развивать собственные решения. China Telecom, как одна из крупнейших
Читать на habr.com


