Вышел Grok 4.1 от xAI
Компания xAI официально объявила о выпуске Grok 4.1. По данным компании, Grok 4.1 значительно улучшает качество взаимодействия за счёт расширенных творческих, эмоциональных и совместных возможностей. Модель стала лучше воспринимать тонкие намерения пользователя, придерживается более целостного стиля общения и сохраняет «личность», при этом не теряя точности и надёжности, характерных для предыдущих поколений Grok.
Для достижения этих результатов xAI применила масштабную инфраструктуру обучения с подкреплением, ранее использовавшуюся для Grok 4, и оптимизировала стиль, характер, полезность и выравнивание новой версии. Компания также разработала методы, позволяющие использовать передовые агентные модели рассуждений в качестве моделей вознаграждения, что обеспечивает автоматическую оценку и улучшение ответов в большом масштабе.
Тихий запуск и метрики качества
С 1 по 14 ноября 2025 года xAI проводила тихий запуск предварительных сборок Grok 4.1, постепенно увеличивая долю реального трафика, перенаправляемого на новую модель. В течение этого периода компания проводила непрерывные слепые попарные сравнения.
Результаты показали, что пользователи предпочитали Grok 4.1 в 64,78% случаев по сравнению с предыдущей моделью, работавшей в продакшене.
Новые лидирующие позиции
Grok 4.1 установил новый ориентир в слепых человеческих оценках. В Text Arena проекта LMArena версия Thinking (quasarflux) получила рейтинг 1483 Elo и заняла первое место, опередив ближайшую не-xAI модель на 31 балл. Нерассуждающий режим (tensor) также показал высокие результаты — второе место с 1465 Elo, превзойдя рассуждающие режимы всех конкурентов в открытом рейтинге.
По сравнению с Grok 4, занимавшей 33-е место, прогресс оказался значительным.
Эмоциональный
Читать на habr.com