Галлюцинации недели: Gemini 3.1 Pro, Sonnet 4.6 в бою и новый дом llama.cpp
Google бросает перчатку, Anthropic сканирует чужой код, а моделям выдают фудтраки и деньги на бизнес. Приглядимся ко всему по порядку.
Google выпустил Gemini 3.1 Pro. Как обычно, мы видим красивые бенчмарки: ARC-AGI-2 вырос с 31% до 77%, SWE-Bench Verified 80,6%. По соотношению цены и заявленного качества модель очень интересная, а ещё она умеет такое.
В реальной работе не всё гладко. Бывший сотрудник Google на HN написал, что Gemini "самая раздражающая модель для разработки": ненужные рефакторинги, непрошенные комментарии, потеря контекста. На Reddit жалуются на нерф через пару дней после запуска. В Gemini CLI агенты уходили в бесконечные циклы, пытаясь обновить себя до несуществующих версий.
Заодно Google запустил Lyria 3, генератор музыки внутри Gemini. Промпт → 30-секундный трек с вокалом, маркируется SynthID. Можно выбрать стиль и замиксовать, получается интересно.
И ещё один тихий запуск от Google: Pomelli Photoshoot. Загружаешь фото продукта со смартфона, получаешь студийные снимки: на белом фоне, в интерьере, с AI-моделью. Бесплатно, работает на Nano Banana. Для малого бизнеса это замена фотосессии за $500. Пока доступно только в США, Канаде, Австралии и Новой Зеландии.
Про релиз Sonnet 4.6 я писал на прошлой неделе, теперь появились реальные отзывы. Хвалят: лучше следует инструкциям, меньше оверинжинирит, код читается как написанный человеком. Cursor написал, что модель лучше на длинных задачах, но "по интеллекту ниже Opus 4.6". Главная боль: расход токенов вырос в ~4.5 раза по сравнению с Sonnet 4.5.
Anthropic запустил Claude Code Security, сканер уязвимостей на Opus 4.6. Работает не по паттернам, а читает код как исследователь. Инструмент в research preview, только для Enterprise. Рыночек отреагировал: CrowdStrike
Читать на habr.com
