Об этом же в других СМИ

habr.com / 7 месяцев назад

Вышла FLUX.2 — open source-конкурент Nano Banana

habr.com / 7 месяцев назад

Бесплатная конференция о разработке системного ПО, ядрах Linux и open source пройдёт 3 декабря в Москве

habr.com / 7 месяцев назад

Anthropic представили Claude Opus 4.5: лучшую в мире модель для кодинга и агентов

habr.com / 7 месяцев назад

Вышел Mux — open source-инструмент, где над кодом работают несколько разных ИИ

incrypted.com / 7 месяцев назад

Anthropic представила Claude Opus 4.5 — «самый мощный ИИ» для кодирования и агентных систем

Больше по теме

10.11.2025 - 17:06 / habr.com

Вышла Kimi K2 Thinking – свежая open source-модель для сложных рассуждений и агентных задач

Она способна выполнять до 300 последовательных действий, строя цепочку логики, поиска и кода. Эта модель — очередной шаг в направлении масштабирования вычислений во время выполнения, благодаря увеличению как количества «токенов размышления», так и числа шагов при вызове инструментов.

Kimi K2 Thinking устанавливает новые рекорды на бенчмарках, оценивающих логическое мышление, кодинг и агентные способности.

Немного про бенчмарки:

K2 Thinking демонстрирует выдающиеся способности к логике и решению задач. На Humanity’s Last Exam (HLE) — строго разработанном бенчмарке с закрытыми вопросами экспертного уровня по более чем 100 предметам — модель достигла 44,9%, используя инструменты для поиска, Python и веб-браузер.

K2 Thinking показывает значительный прогресс в задачах кодинга и разработки ПО. Она достигает 61,1% на SWE-Multilingual, 71,3% на SWE-Bench Verified и 47,1% на Terminal-Bench, демонстрируя хорошую переносимость навыков между языками и структурами агентных систем.

K2 Thinking показывает высокие результаты в сценариях поиска и навигации. На BrowseComp — сложном бенчмарке, оценивающем способность моделей непрерывно искать, просматривать и рассуждать над труднодоступной реальной информацией из интернета — модель набрала 60,2%, значительно превысив человеческий базовый уровень 29,2%. Этот результат подчёркивает превосходство K2 Thinking в целенаправленных рассуждениях, основанных на веб-поиске, и её устойчивость в динамичных, насыщенных информацией средах.

Самый яркий пример из релиза — то, как модель создаёт сложные интерактивные приложения с нуля. Не уверены, насколько это показательные примеры для повседневной практики разработчиков, но выглядит хорошо. Видно, что качество генераций таких MVP на очень высоком уровне. А ниже

общество курс pythonleader

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Gemini 3 Pro назвали лучшим ИИ для сложной математики habr.com / 7 месяцев назад

Ai2 выпускает Deep Research Tulu — открытую модель для глубокого исследования информации habr.com / 7 месяцев назад

В «Яндекс Картах» появился ИИ-помощник на базе технологий Alice AI для решения нестандартных городских задач habr.com / 7 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

15.07 / 11:10

технологии Amazon google Утечка раскрыла цены и характеристики серии Google Pixel 11: сколько будут стоить все модели в США

После публикации рендеров Pixel 11, Pixel 11 Pro, Pixel 11 Pro XL и Pixel 11 Pro Fold стали известны предполагаемые цены устройств для американского рынка, а также часть их технических характеристик. Согласно данным издания Droid Life, которое обнаружило уже удаленные страницы товаров на Amazon, Google может отказаться от базовой версии с 128 ГБ памяти. Если информация подтвердится, все модели линейки будут стартовать с накопителя объемом 256 ГБ.

15.07 / 11:06

продукты здоровье Здоровье и красота лечение питание Какие ошибки в питании могут привести к диабету

Диабет 2 типа часто связан с нездоровым образом жизни, в частности неправильным питанием.

15.07 / 11:06

продукты Здоровье и красота биологи гигиена мода и стиль Как сохранить молодость после 40 лет - ТОП полезных привычек

Эксперты рассказали, как правильно ухаживать за собой, чтобы долго оставаться молодой.

15.07 / 11:06

Путешествия туризм общество отпуск самолет Туристы допускают распространенную ошибку при складывании чемоданов

Эксперты рассказали, какие правила необходимо соблюдать туристам, чтобы сборка чемоданов не превратилась в кошмар.

15.07 / 11:06

связь происшествия люди здоровье общество Как понять, что ваши отношения токсичны - тест из одного вопроса

Граница между настоящей любовью и эмоциональной зависимостью очень тонкая, говорят психологи.

15.07 / 11:01

экономика самит инвестор google Курс bitcoin CryptoQuant: долгосрочные инвесторы накапливают биткоин, пока рынок проходит этап формирования дна

Рынок биткоина продолжает находиться в фазе формирования дна, которая сопровождается «перераспределением боли» между разными категориями инвесторов. Об этом заявили аналитики CryptoQuant. Давление постепенно переходит к долгосрочным держателям По данным экспертов, скорректированный индикатор aNUPL демонстрирует разную динамику для краткосрочных (STH) и долгосрочных держателей (LTH). В случае STH показатель начинает улучшаться — каждый новый минимум становится менее негативным, хотя биткоин и дальше тестирует н

15.07 / 10:59

деньги самит Здоровье и красота Знаменитости Дом и интерьер Jaguar E-Type в исполнении LEGO: 1673 детали британского аристократизма

Энцо Феррари (Enzo Ferrari) в свое время назвал Jaguar E-Type самым красивым автомобилем в мире. Датчане из LEGO, очевидно, решили, что эта красота пора стать кучей пластиковых кирпичиков, которые вы обязательно рассыпете при сборке. Новый набор серии Icons воссоздает легендарный родстер 60-х годов, предлагая фанатам автоклассики еще один способ потратить деньги и место на полке.

15.07 / 10:59

продукты Apple журналист стартап OpenAI Умнее умной колонки: Марк Гурман раскрыл подробности амбициозного AI-гаджета от OpenAI и Джони Айва

Известно, что OpenAI совместно со стартапом io Products, основанным бывшим главным дизайнером Apple Джони Айвом (Jony Ive), работает над линейкой AI-гаджетов. Еще в феврале появлялась информация, что первым таким продуктом станет умная колонка с расширенными возможностями и теперь журналист Bloomberg Марк Гурман раскрыл немного подробностей о ней.

15.07 / 10:59

продукты технологии Apple Huawei самит Torras Big Eye Pro: Зарядка, которая хочет заменить ваши кабели (и почти не раздражает дизайном)

Компания Torras, которая обычно ассоциируется с аксессуарами для смартфонов, решила выйти на территорию компактных энерго-решений. Новинка под названием Big Eye Pro — это попытка создать универсальный хаб для тех, кто живет в экосистеме Apple, но не хочет таскать с собой кучу проводов. Устройство оценили в $50 (2220 грн), что для рынка аксессуаров формата «все в одном» выглядит вполне разумно.

15.07 / 10:33

история общество Знаменитости звезда Шоу бизнес Звезда “Подпольной империи”, “Бешеных псов” и “Фарго” Стив Бушеми снимется в сериале Far Cry

Киностудия FX Productions постепенно переходит к активной работе над сериалом по мотивам знаменитой игровой франшизы Far Cry.

Лента новостей

На главную страницу