Claude Opus 4.6 и Sonnet 4.6 прокачали веб-поиск
Anthropic обновила инструменты веб-поиска для Claude — web search и web fetch. Главное нововведение называется dynamic filtering: теперь модель сама пишет и запускает код, чтобы отфильтровать результаты поиска до загрузки в контекстное окно. Раньше агенты на Claude загружали полные HTML-страницы и пытались "думать" над сырыми данными, теперь лишнее отсеивается программно — на лету.
Результаты на двух бенчмарках выглядят убедительно. На BrowseComp от OpenAI, который проверяет умение находить труднодоступную информацию в вебе, Opus 4.6 с фильтрацией набрал 61.6% против 45.3% без нее, Sonnet 4.6 — 46.6% против 33.3%. На DeepsearchQA от Google DeepMind, где нужно систематически собрать все ответы на исследовательский запрос, F1-скор Opus 4.6 вырос с 69.8% до 77.3%. В среднем точность выросла на 11%, а расход входных токенов снизился на 24%.
Dynamic filtering — развитие подхода, который Anthropic ранее описала для других агентских сценариев: модель генерирует и исполняет код прямо в процессе работы, вместо того чтобы рассуждать над необработанными данными. Quora уже протестировала технологию в своей мультимодельной платформе Poe и заявила, что Opus 4.6 с dynamic filtering показал лучший результат среди передовых моделей на их внутренних оценках.
Одновременно Anthropic перевела в статус общей доступности (GA) несколько инструментов для разработчиков: исполнение кода, "память" между разговорами, программный вызов инструментов, поиск по инструментам и примеры использования инструментов. Всё это доступно через API вместе с моделями Opus 4.6 и Sonnet 4.6, которые Anthropic выпустила с разницей в 12 дней на фоне гонки с OpenAI и Google.
Новые версии web search и web fetch включены по умолчанию для Opus 4.6 и Sonnet 4.6 на API.
Читать на habr.com