

Бенчмарки Llama-4, предположительно — скам на самом высоком уровне
Буквально пару дней назад, комада Llama сообщила о появлении трех новых нейронок под общим зонтиком Llama-4: быстрый Scout с контекстом 10 миллионов токенов. Медленный Maverick с контекстом 1 миллион, но 128 экспертами под капотом. И гигантский Behemoth, который использовался как учитель для предыдущих двух.
10 миллионов токенов и нахаляву — это, мягко говоря, дофига. Можно закрыть глаза и представить, как где-то там в далеком Сан-Франциско, разработчики Gemini Pro начинают искать себе новую работу сантехниками, электриками и ассенизаторами.
Но вот прошла пара дней, и Царь оказался ненастоящий.
Похоже, бенчмарки Llama-4 оказались простой бытовой ложью. Никаких 10 миллионов токенов контекста. Уже на контексте в 120к производительность обнуляется.
В Твиттере помогли найти хороший пост на форуме, на чистом китайском языке. С изобретением Claude Sonnet 3.7, все мы теперь эксперты-лингвисты, поэтому вот вам краткая выжимка:
Штатный сотрудник Meta GenAI решил уволиться, потому что заранее понимал, что бенчмарки Llama-4 - голимый скам. SOTA они не достигли, а руководство предложило подмешать в тестовые наборы данные из пред-трена, чтобы получить графики, похожие на правду. Самое высшее руководство объявило, что если до конца апреля они не достигнут SOTA, т.е. не станут лучшими в индустрии, то сотрудникам GenAI поотрывают головы.
Человек, написавший этот слив работает в академической среде, где репутация - это главное. Особенно, в Китае, где стартаперские круги целиком строятся на репутации. Поэтому он решил спрыгнуть с тонущей лодки первым. В увольнительной он указал, что запрещает использовать свою фамилию в официальной техкарте модели на Гитхабе.
А сразу за ним уволился VP of AI (читай - продакт-менеджер) этого продукта.
Чем-то мне
Читать на habr.com