



OpenAI выкатывает GPT-5.2 экспертного уровня, конкуренты объединяются ради стандартов: главное новости AI за неделю
OpenAI выпустила GPT-5.2: модель впервые достигла экспертного уровня — обходит или не уступает профессионалам в 70.9% задач на GDPval (44 профессии), 100% на AIME 2025, 80% на SWE‑Bench Verified, галлюцинаций на 30% меньше, работает в 11× быстрее за <1% стоимости.
Anthropic и OpenAI передали ключевые стандарты в новый Agentic AI Foundation: MCP и AGENTS.md теперь под управлением Linux Foundation — редкая кооперация конкурентов ради общей инфраструктуры для AI‑агентов.
Mistral выпустила Devstral 2: открытая coding‑модель с 72.2% на SWE‑bench, в 5× меньше DeepSeek V3.2, плюс CLI‑агент Vibe для терминала.
Adobe пришла в ChatGPT: Photoshop, Acrobat и Express теперь работают прямо в чате — базовое редактирование фото и PDF бесплатно.
Google представила Gemini 3 Pro: прорыв в vision — SOTA на MMMU Pro и Video MMMU, понимание документов, видео и пространства для робототехники и медицины.
NYT подала в суд на Perplexity: обвинения в извлечении контента из‑под paywall'а — Perplexity в центре юридического давления от крупнейших медиа мира.
OpenAI представила GPT-5.2 — флагманскую модель для сложных рабочих задач. На бенчмарке GDPval (реальные задачи из 44 профессий) GPT-5.2 Thinking обходит или не уступает экспертам в 70.9% случаев. На математической олимпиаде AIME 2025 — 100%.
Ключевые результаты GPT-5.2 Thinking:
GDPval: 70.9% побед и ничьих против экспертов (было 38.8% у GPT-5).
SWE‑Bench Verified: 80.0% (было 76.3%).
GPQA Diamond: 92.4% (было 88.1%).
AIME 2025: 100% (было 94%).
ARC‑AGI-2: 52.9% (было 17.6% — рост в 3×).
Галлюцинации: на 30% меньше ошибок в ответах.
Длинный контекст: первая модель, которая почти достигает 100% точности на 4-needle MRCR до 256K токенов.
Три версии:
GPT-5.2 Instant: быстрая модель для повседневных задач,
Читать на habr.com