


Популярный GPT-4 использует технологии 30-летней давности: стали известны и другие тайны
Известный бывший хакер, который первым взломал iPhone и Sony Playstation 3, поделился секретами самого известного чат-бота на планете. Оказывается, языковая модель GPT-4, которую разработала OpenAI, имеет размер 1,76 трлн параметров и использует технологию 30-летней давности, сообщает The Decoder. GPT-4 основан на восьми моделях, каждая из которых имеет 220 млрд параметров, которые связаны в архитектуре Mixture of Experts (MoE).
Этой идее почти 30 лет, и она уже использовалась для больших языковых моделей, таких как Google Switch Transformer. Информация о GPT-4 исходит от Джорджа Хотца, основателя Comma.ai, стартапа по автономному вождению. Хотц — эксперт по искусственному интеллекту, который также известен своим хакерским прошлым: он первым взломал iPhone и Sony Playstation 3.
Другие эксперты по искусственному интеллекту также прокомментировали ленту Хотца в Твиттере, заявив, что его информация, скорее всего, верна. Модель MoE представляет собой тип ансамблевого обучения, который объединяет различные модели, называемые "экспертами", для принятия решения. В модели MoE шлюзовая сеть определяет вес выходных данных каждого "эксперта" на основе входных данных.
Это позволяет разным "экспертам" специализироваться на разных частях входного пространства. Эта архитектура особенно полезна для больших и сложных наборов данных, так как она может эффективно разделить проблемное пространство на более простые подпространства. Архитектура, возможно, упростила обучение GPT-4, позволив разным командам работать в разных частях сети.
Читать на focus.ua