Llama 4 Maverick и Scout: результаты тестирования моделей Meta*
Новые независимые оценки показывают, что последние модели Meta Llama 4 — Maverick и Scout — хорошо справляются со стандартными тестами, но испытывают трудности со сложными задачами с длительным контекстом.
Согласно совокупному «индексу интеллекта» от Artificial Analysis, Llama 4 Maverick от Meta набрала 49 баллов, а Scout — 36. Это ставит Maverick выше Claude 3.7 Sonnet, но ниже Deepseek V3 0324. Scout работает наравне с GPT-4o-mini и превосходит Claude 3.5 Sonnet и Mistral Small 3.1.
Обе модели продемонстрировали стабильные результаты в общих логических, программистских и математических задачах, не показав существенных недостатков в какой-либо конкретной области.
Архитектура Maverick демонстрирует некоторую эффективность, используя лишь половину активных параметров Deepseek V3 (17 миллиардов против 37 миллиардов) и около 60 процентов от общего числа параметров (402 миллиарда против 671 миллиарда). В отличие от Deepseek V3, который обрабатывает только текст, Maverick может обрабатывать и изображения.
По данным искусственного анализа, средняя цена Maverick составляет 0,24 доллара за миллион входных/выходных токенов, а Scout — 0,15 доллара за миллион. Эти цены ниже даже у бюджетного Deepseek-V3 и в десять раз ниже, чем у GPT-4 от OpenAI.
Запуск Llama 4 не обошёлся без споров. Несколько тестировщиков сообщают о значительных различиях в производительности между LMArena — бенчмарком, который активно продвигает Meta, — и производительностью модели на других платформах, даже при использовании рекомендуемой Meta системной подсказки.
Meta подтвердила, что для этого теста использовалась «экспериментальная версия чата» Maverick, и предложила возможную оптимизацию для людей, которые оценивают результаты, с помощью подробных, хорошо
Читать на habr.com