Об этом же в других СМИ

gagadget.com / 1 год назад

Huawei выпустила новые роутеры X1 и X1 Pro с Wi-Fi 7 и интеграцией с HarmonyOS

gagadget.com / 1 год назад

Появились слухи о новой модели G-Steel GST-B1000 от Casio

gagadget.com / 1 год назад

Компания Nubia представила новый игровой смартфон RedMagic 10 Air с чипом Snapdragon 8 Gen 3 и батареей 6000 мАч

gagadget.com / 1 год назад

Представлен новый смартфон Honor Power с огромным аккумулятором 8000 мАч

chudo.tech / 1 год назад

Новая сплит-система от Xiaomi может отслеживать нахождение людей в комнате

Больше по теме

28.03.2025 - 07:54 / habr.com

Новая DeepSeek V3: рекорды в бенчах, кодинг лучше Claude и GPT-4.5

Позавчера DeepSeek загадочно и молчаливо залили новую модель на HuggingFace, даже не написав ничего ни в блоге, ни в README файле.

Сегодня, наконец, вышел анонс с подробным описанием характеристик новой модели (а точнее, крутого обновления старой модели). Давайте разбираться, что в этот раз нам подогнали китайские исследователи.

В первую очередь, давайте посмотрим на результаты бенчей по математике и программированию:

MMLU-Pro: вырос с 75.9 → 81.2 (+5.3)

GPQA: вырос с 59.1 → 68.4 (+9.3)

AIME: вырос с 39.6 → 59.4 (+19.8) (вау, SOTA, с сильным отрывом)

LiveCodeBench: 39.2 → 49.2 (+10.0)

В усреднённых результатах по всем тестам мы видим, что V3-0324 обгоняет текущие результаты Claude 3.5 (в целом, 3.5 - старая модель, ничего удивительного). Claude 3.7 почему-то в этих тестах вообще не измерялся.

Интересно, что в заявлениях по бенчам самого DeepSeek - они обгоняют 3.7. Из-за чего в интернете даже разгорелись жаркие споры, а не был ли V3-0324 обучен на Claude 3.7.

Однозначного вердикта нет, разные пользователи считают по разному, многие считают, что заявления о "краже" 3.7 во многом политические, и Anthropic таким образом в очередной раз пытаются вставить палки в колёса Китаю.

С другой стороны, назвать их безосновательными сложно - китайские модели уже не раз "ловили за руку" на обучении на диалогах моделей OpenAI. Учитывая, что в моделях для разработки лидирует Claude, было бы неудивительно, если бы для "программистской" модели они решили дистиллировать ответы Claude 3.7.

Авторы подсвечивают, что модель прокачалась во фронтенде, разработке веб-интерфейсов:

Улучшение исполняемости кода (то есть написание без ошибок)

Более эстетически привлекательные веб-страницы и игровые интерфейсы

Улучшилось качество Function Calling - вызова кастомных

технологии общество самит интересное крипто eps Китай

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Акции Nvidia упали на фоне угрозы убытков в $5,5 млрд из-за новых ограничений США incrypted.com / 1 год назад

Apple может увеличить цены на 17–18%, чтобы компенсировать расходы, вызванные новыми таможенными пошлинами в США habr.com / 1 год назад

Новое оборудование Xiaomi станет полезным дополнением к любому ноутбуку novostiua.net / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

17.07 / 07:35

здоровье общество человек врачи мозг Не все вредные привычки опасны: ученые назвали пять исключений

Ученые пересмотрели влияние некоторых привычек и обнаружили, что часть из них может быть полезна для здоровья.

17.07 / 07:34

смартфоны бытовая техника аксессуары Транспорт Лампы BAENUE помогают снизить влияние искусственного света на сон

Корейская компания BAENUE представила линейку настольных ламп, разработанных с учётом влияния освещения на биологические ритмы человека.

17.07 / 07:33

общество самит интересное В космосе обнаружена первая молекула «настоящего сахара» — и это может пролить свет на происхождение жизни

Группа астрономов обнаружила молекулу сахара внутри облака газа и пыли недалеко от центра нашей Галактики. Это так называемый «малиновый сахар», или эритрулоза — соединение с четырьмя атомами углерода. Астрономы считают эту находку первым настоящим сахаром, обнаруженным в межзвёздном пространстве. Эти результаты, о которых сообщается в журнале Nature Astronomy, могут помочь прояснить, как зародилась жизнь на Земле.

17.07 / 07:26

технологии происшествия Telegram Дом и интерьер Регистратор Domain.ME: блокировка t.me была по требованию Управления по контролю за иностранными активами США

Регистратор Domain.ME (управляет доменной зоной .me, принадлежит Черногории) признался Дурову, что блокировка t.me была выполнена по требованию Управления по контролю за иностранными активами США (OFAC Минфина США). «Спасибо за ваше терпение! http://t.me был приостановлен из‑за соответствия требованиям OFAC, но теперь он снова в сети», — пояснили в команде регистратора. Вероятно, в регистраторе ошибочно ограничили доступ к всему домену, вместо определённой ссылки.

17.07 / 07:14

технологии общество политика самит эфир Почему одной двухфакторной аутентификации недостаточно для современной инфраструктуры

Чем больше в компании сервисов, тем сложнее становится управление доступом. Разные способы входа, отдельные политики безопасности, множество точек администрирования — со временем единая система превращается в набор разрозненных решений.

17.07 / 07:14

Facebook Apple общество Разработчик собрал контроллер, используя который, нейросеть можно обучать с помощью физических регуляторов

Бывший разработчик Apple и Meta* Тайлер Суард (Tyler Suard) представила необычный проект KnobNet, в котором процесс обучения нейросети перенесли из кода в физический мир. Вместо настройки параметров через интерфейс компьютера, автор создала устройство, где веса изменяются вручную — с помощью потенциометров и других физических элементов управления.

17.07 / 07:14

PVS-Studio теперь в GitVerse

Мы добавили готовые шаблоны для статического анализа в GitVerse Starter Workflow (российский аналог GitHub/GitLab от «СберТеха»).

17.07 / 07:12

налоги технологии общество Здоровье и красота Casio выпустила новые G-Shock G-Steel с тонким корпусом и солнечной зарядкой

Casio официально начала продажи в США двух новых часов серии G-Shock G-Steel — GST-B1000BD-1A и GST-B1000BD-2A. Обе модели дебютировали на японском рынке месяц назад, а теперь стали доступны и американским покупателям. Стоимость каждой составляет около 21 200 гривен по актуальному курсу.

17.07 / 07:07

курс криптовалюта google крипто токен HYPE утратил уровень $60 на фоне продажи актива a16z

Венчурный фонд Andreessen Horowitz (a16z) начал сокращать позицию в токене Hyperliquid (HYPE), переведя за последние два дня 437 000 HYPE (около $28,38 млн) на биржи Hyperliquid, OKX, Bybit и Gate, согласно данным Arkham Intelligence. Тем временем на момент написания материала курс актива опустился ниже $60, хотя еще в начале июня токен обновил исторический максимум выше $74. Объем торгов активом на биржах вырос более

17.07 / 07:07

продукты google крипто NYSE Ethereum В США вышел на рынок первый спотовый мультиактивный криптовалютный ETF

16 июля 2026 года на бирже NYSE Arca начались торги акциями T. Rowe Price Active Crypto ETF (TKNZ). Продукт позиционируется как первый в США спотовый биржевой фонд, который инвестирует в корзину криптоактивов. Отметим, компания T. Rowe Price подала заявку на регистрацию этого продукта еще в октябре 2025 года. Комиссия по ценным бумагам и биржам США (SEC) одобрила листинг в июне 2026 года. Согласно проспекту, биржевой фонд будет инвестировать в корзину криптоактивов. Среди криптовалют упоминаются биткоин, Ethereum, Solana, XRP, Cardano,

Лента новостей

На главную страницу