

Google представили Titan: архитектуру нейросетей, которая может стать новой серебряной пулей LLM
Все современные LLM построены на архитектуре трансформера. GPT-4o от OpenAI, Gemini от Google, Claude Sonet от Anthropic, Grok от xAI... перечислять можно долго. Трансформер – действительно очень мощная архитектура (и кстати тоже была придумала в Google), но и в ней есть свои недостатки.
В частности, трансформеры очень прожорливы и забывчивы: чем больше последовательности, которые они обрабатывают, тем больше ресурсов для этого требуется, и тем больше ошибок они допускают. Это одна из основных проблем сегодняшнего ИИ, потому что такое поведение сильно ограничивает способность модели работать, например, с большой базой данных, или с большим кодовым проектом, или с последовательностями геномов.
В своей новой статье Google предложили элегантное решение: их Titan легко масштабируется на последовательности 2+ млн токенов, при этом не теряя в точности (трансформеры обычно начинают проседать уже после отметки 4096, то есть в 500 раз меньше). Сейчас разберемся, как ученым это удалось.
В основе трансформера лежит механизм внимания. Суть механизма заключается в том, что мы "взвешиваем" релевантность всех токенов последовательности относительно друг друга: каждый с каждым. На практике это реализуется как перемножение трех тензоров: Query, Key и Value. Воспринимать Query, Key и Value можно как составляющие, необходимые для "умного поиска" по последовательности: запросы, ключи и значения. При их последовательном перемножении мы и получаем тот самый attention, который показывает значимость связей между словами. Именно основываясь на этих связях модель может глобально понимать тексты, которые читает, а затем один за одним предсказывать следующие токены, из которых получаются осмысленные ответы на ваш запрос.
Лирическое отступление:
Читать на habr.com