ИИ собрал рабочую ОС за 12 часов: представлена Gemini 3.5 Flash
На конференции I/O 2026 Google представил новое семейство моделей Gemini 3.5. Первой вышла младшая версия — 3.5 Flash, и компания сразу назвала ее своей сильнейшей моделью для агентов и кодинга. Но посмотрим на бенчмарки.
Где 3.5 Flash действительно вне конкуренции — это агентские задачи и работа с инструментами. На MCP Atlas (многошаговые сценарии через внешние инструменты) она набирает 83,6%, обходя и Claude Opus 4.7, и GPT-5.5. На Finance Agent v2 — 57,9% против примерно 51% у обоих конкурентов и 43% у своего же 3.1 Pro. Сильна она и в мультимодальности: 83,6% на MMMU-Pro и 84,2% на CharXiv — лучшие результаты в таблице. По кодингу Flash обгоняет 3.1 Pro (76,2% против 70,3% на Terminal-Bench 2.1), но здесь ее уже опережает GPT-5.5 с 78,2%.
А вот в глубоком рассуждении и длинном контексте картина обратная. На академическом тесте Humanity's Last Exam новая Flash набирает 40,2% — меньше, чем прошлый флагман 3.1 Pro (44,4%) и Claude Opus 4.7 (46,9%). На головоломках ARC-AGI-2 — 72,1% против 77,1% у 3.1 Pro. На GDPval-AA, где модели сравнивают по Elo-рейтингу как шахматистов на экономически ценной работе, у Flash 1656 — ниже, чем у Claude Sonnet 4.6 (1676), Opus 4.7 (1753) и GPT-5.5 (1769). Логика простая: это скоростной агентский "рабочий конь", а не чемпион по сложным размышлениям.
Зато по скорости разрыв огромный. По замерам независимого сервиса Artificial Analysis, 3.5 Flash выдает 289 токенов в секунду — больше чем вчетверо быстрее Claude Opus 4.7 (67 токенов/с) и GPT-5.5 (71), и вдвое быстрее самого Gemini 3.1 Pro (135). При этом по общему индексу интеллекта Artificial Analysis модель держится вровень с 3.1 Pro и Claude Opus 4.7. Все это, по словам Google, за долю стоимости конкурентов.
Самую наглядную демонстрацию
Читать на habr.com
