Об этом же в других СМИ

cursorinfo.co.il / 1 год назад

"Невинные" фразы, которые на самом деле убивают отношения, назвал психолог

habr.com / 1 год назад

BI.ZONE обнаружила две уязвимости высокого уровня опасности в ПО Vaultwarden

gagadget.com / 1 год назад

Андор покоряет критиков: второй сезон стал самым высоко оцененным live-action проектом Звездных войн

gagadget.com / 1 год назад

Первый тизер фильма Predator: Badlands раскрывает новый вид Хищника, который отправляется в опасное путешествие в поисках самого высокого противника

Больше по теме

10.04.2025 - 08:14 / habr.com

Бенчмарки Llama-4, предположительно — скам на самом высоком уровне

Буквально пару дней назад, комада Llama сообщила о появлении трех новых нейронок под общим зонтиком Llama-4: быстрый Scout с контекстом 10 миллионов токенов. Медленный Maverick с контекстом 1 миллион, но 128 экспертами под капотом. И гигантский Behemoth, который использовался как учитель для предыдущих двух.

10 миллионов токенов и нахаляву — это, мягко говоря, дофига. Можно закрыть глаза и представить, как где-то там в далеком Сан-Франциско, разработчики Gemini Pro начинают искать себе новую работу сантехниками, электриками и ассенизаторами.

Но вот прошла пара дней, и Царь оказался ненастоящий.

Похоже, бенчмарки Llama-4 оказались простой бытовой ложью. Никаких 10 миллионов токенов контекста. Уже на контексте в 120к производительность обнуляется.

В Твиттере помогли найти хороший пост на форуме, на чистом китайском языке. С изобретением Claude Sonnet 3.7, все мы теперь эксперты-лингвисты, поэтому вот вам краткая выжимка:

Штатный сотрудник Meta GenAI решил уволиться, потому что заранее понимал, что бенчмарки Llama-4 - голимый скам. SOTA они не достигли, а руководство предложило подмешать в тестовые наборы данные из пред-трена, чтобы получить графики, похожие на правду. Самое высшее руководство объявило, что если до конца апреля они не достигнут SOTA, т.е. не станут лучшими в индустрии, то сотрудникам GenAI поотрывают головы.

Человек, написавший этот слив работает в академической среде, где репутация - это главное. Особенно, в Китае, где стартаперские круги целиком строятся на репутации. Поэтому он решил спрыгнуть с тонущей лодки первым. В увольнительной он указал, что запрещает использовать свою фамилию в официальной техкарте модели на Гитхабе.

А сразу за ним уволился VP of AI (читай - продакт-менеджер) этого продукта.

Чем-то мне

общество самит крипто gemini

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Исследователи представили бенчмарк, в котором языковые модели проходят классические игры habr.com / 1 год назад

Incrypted Conference 2025: более 3000 участников соберутся на самом масштабном криптособытии Украины incrypted.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

25.07 / 08:40

Facebook реклама технологии люди самит Сказали что-то вслух и увидели рекламу: действительно ли смартфон вас подслушивает

Как наш телефон умеет предлагать нам, например, в Facebook изображения или сайты, связанные с тем, что мы только что обсуждали незадолго до этого? Это один из вопросов, которые все больше людей задают себе в последние месяцы и даже годы.Действительно, первое впечатление таково, что наши смартфоны "имеют уши", однако существует довольно чёткая грань между тем, чтобы нас "слушать", и сбором данных, доступ к которым мы сами и разрешили, пишет Euronews. Эксперты объяснили, как именно это работает.Ведущий NewsIT Лаврентиу Матаке заявил, что наши мобильные телефоны нас не слушают.

25.07 / 08:35

Nvidia самит Энтузиасты обнаружили скрытые датчики температуры каждого чипа памяти в видеокартах Nvidia

Группа энтузиастов обнаружила, что видеокарты Nvidia с памятью GDDR6 и GDDR6X способны передавать данные о температуре каждого отдельного чипа памяти, хотя компания никогда публично не раскрывала существование этой возможности. Получить доступ к скрытой телеметрии удалось с помощью анализа регистров MMIO и доработки программного обеспечения для мониторинга.

25.07 / 07:51

наука SpaceX ракета самит интересное «Самое мягкое приводнение». SpaceX провела 13-й тестовый полет Starship

25 июля с космодрома Starbase в Техасе в 13-й раз отправилась в космос самая мощная ракета в мире — Starship — в рамках очередного тестового запуска. Космический корабль успешно завершил все этапы миссии и совершил «самое мягкое приводнение за всю историю наблюдений», а ускоритель Super Heavy столкнулся с проблемами при перезапуске двигателей во время посадки в океан.

25.07 / 07:48

технологии Amazon закон google правительство Airbus переводит 70 критически важных приложений с AWS на французского облачного провайдера Scaleway

Европейская авиастроительная компания Airbus переводит 70 критически важных приложений с инфраструктуры Amazon Web Services на системы французского облачного провайдера Scaleway в рамках стремления к повышению цифрового суверенитета, пишет Register. Производитель самолётов выставил соответствующий тендер в начале текущего года.

25.07 / 07:48

продукты общество доллар Enterprise GitHub запустил Code Quality: проверки кода, Copilot Autofix и цена $10

GitHub объявил о полноценном запуске Code Quality — инструмента для поиска проблем с поддерживаемостью и надёжностью кода ещё до слияния изменений. Сервис стал доступен пользователям GitHub Enterprise Cloud и GitHub Team.

25.07 / 07:48

продукты предприятия Когда ERP уже не справляется: приглашаем на вебинар об автоматизации склада с WMS

29 июля в 11:00 МСК эксперт Инфостарт проведет бесплатный вебинар, посвященный автоматизации складской логистики. Участники узнают, в каких случаях возможностей ERP уже недостаточно для эффективного управления складом, какие задачи решает WMS и как подготовиться к внедрению без лишних рисков.

25.07 / 07:48

общество токен OpenAI вынужденно отключила ИИ‑модель для решения «длительных задач» после обнаружения рисков безопасности

OpenAI создала внутреннюю модель искусственного интеллекта, которая предназначена для выполнения длительных многоэтапных задач, но впоследствии отключила её, поскольку модель демонстрировала новые типы нежелательного поведения.

25.07 / 07:48

общество самит Исследователь обнаружил, что переписки с DeepSeek всплывают в поисковой выдаче

Исследователь в области ИИ и основатель компании Peec AI Давид Коницны (David Konitzny) сообщил о потенциальной проблеме с конфиденциальностью в китайском сервисе DeepSeek. По его словам, опубликованные пользователями ссылки на диалоги с чат-ботом могут индексироваться поисковыми системами, из-за чего часть переписок становится доступной любому желающему.

25.07 / 07:41

iPhone смартфон Android интернет совет Назван неожиданный минус 5G, который почувствуют все: это можно исправить

Несмотря на значительно более высокую скорость мобильного интернета, сети 5G могут быстрее разряжать аккумулятор смартфона, чем привычный 4G. Причиной этого являются особенности работы современных сетей и постоянный поиск стабильного сигнала.

25.07 / 07:41

iPhone Apple iPad смартфон компьютер Не только хранить фото: функции iCloud, о которых мало кто знает

Хотя некоторые файлы не стоит загружать в облако, это не означает, что iCloud нужен только для хранения фотографий. Как и другие подобные сервисы, облачное хранилище от Apple предоставляет удаленные серверы для защиты данных и освобождения памяти на устройствах и может предложить гораздо больше, чем просто место для хранения.

Лента новостей

На главную страницу