Вышла Kimi K2 Thinking – свежая open source-модель для сложных рассуждений и агентных задач
Она способна выполнять до 300 последовательных действий, строя цепочку логики, поиска и кода. Эта модель — очередной шаг в направлении масштабирования вычислений во время выполнения, благодаря увеличению как количества «токенов размышления», так и числа шагов при вызове инструментов.
Kimi K2 Thinking устанавливает новые рекорды на бенчмарках, оценивающих логическое мышление, кодинг и агентные способности.
Немного про бенчмарки:
K2 Thinking демонстрирует выдающиеся способности к логике и решению задач. На Humanity’s Last Exam (HLE) — строго разработанном бенчмарке с закрытыми вопросами экспертного уровня по более чем 100 предметам — модель достигла 44,9%, используя инструменты для поиска, Python и веб-браузер.
K2 Thinking показывает значительный прогресс в задачах кодинга и разработки ПО. Она достигает 61,1% на SWE-Multilingual, 71,3% на SWE-Bench Verified и 47,1% на Terminal-Bench, демонстрируя хорошую переносимость навыков между языками и структурами агентных систем.
K2 Thinking показывает высокие результаты в сценариях поиска и навигации. На BrowseComp — сложном бенчмарке, оценивающем способность моделей непрерывно искать, просматривать и рассуждать над труднодоступной реальной информацией из интернета — модель набрала 60,2%, значительно превысив человеческий базовый уровень 29,2%. Этот результат подчёркивает превосходство K2 Thinking в целенаправленных рассуждениях, основанных на веб-поиске, и её устойчивость в динамичных, насыщенных информацией средах.
Самый яркий пример из релиза — то, как модель создаёт сложные интерактивные приложения с нуля. Не уверены, насколько это показательные примеры для повседневной практики разработчиков, но выглядит хорошо. Видно, что качество генераций таких MVP на очень высоком уровне. А ниже
Читать на habr.com
