Вышла Llama 4 с контекстным окном в 10M токенов (в 50 раз больше конкурентов)
Meta представила новое поколение открытых моделей искусственного интеллекта — семейство Llama 4. Это первые нативно мультимодальные модели с открытыми весами, которые объединяют понимание изображений, видео и текста в единой архитектуре.
P.S кратко написал об этом в Телеграм канале, ссылка на пост
1. Llama 4 Scout - модель с 17 млрд активных параметров и 16 экспертами (109 млрд параметров в общей сложности). Является лучшей мультимодальной моделью в своём классе, превосходящей Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1. Главная особенность - рекордное контекстное окно в 10 млн токенов и возможность работы на одной GPU H100 (с квантизацией Int4).
2. Llama 4 Maverick - мощная модель с 17 млрд активных параметров и 128 экспертами (400 млрд параметров в общей сложности). По заявлению Meta, превосходит GPT-4o и Gemini 2.0 Flash по широкому спектру бенчмарков, при этом показывая результаты, сравнимые с DeepSeek v3 в задачах рассуждения и кодирования, но при вдвое меньшем количестве активных параметров. Экспериментальная версия для чата достигла ELO 1417 на LMArena.
3. Llama 4 Behemoth - учительская модель с 288 млрд активных параметров, 16 экспертами и почти 2 триллионами общих параметров. По утверждению Meta, превосходит GPT-4.5, Claude Sonnet 3.7 и Gemini 2.0 Pro по нескольким STEM-бенчмаркам. Эта модель еще находится в процессе обучения и не выпущена публично.
Архитектура Mixture of Experts (MoE)
Впервые в линейке Llama используется архитектура MoE, где для обработки каждого токена активируется лишь часть параметров модели. Это значительно повышает эффективность как обучения, так и инференса.
Например, в Llama 4 Maverick каждый токен обрабатывается общим экспертом и одним из 128 маршрутизируемых экспертов, что позволяет
Читать на habr.com