Об этом же в других СМИ

habr.com / 3 месяца назад

Марк Цукерберг кодит в Claude Code — пока Meta* задерживает свои модели

habr.com / 3 месяца назад

Андрей Карпати рассказал, как ИИ ведет за него вики на 400 000 слов

habr.com / 3 месяца назад

Microsoft вступила в гонку с OpenAI: команда суперинтеллекта готовит передовые модели к 2027 году

habr.com / 3 месяца назад

Три задачи Эрдёша за раз: новая модель OpenAI обошла GPT-5.4 Pro в математике

habr.com / 3 месяца назад

Сооснователь GitLab рассказал, как использовал ChatGPT для борьбы с раком

Больше по теме

23.03.2026 - 07:42 / habr.com

GPT-5.2 не смогла сложить 5+7. Как эзотерические языки обнулили передовые модели

ИИ-лаборатория Lossfunk представила EsoLang-Bench — бенчмарк из 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Пять фронтирных моделей — GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2 — набрали от 0 до 11% точности на задачах, которые в Python решит любой студент за минуты. Ни одна модель не решила ни одной задачи сложнее уровня Easy.

Эзотерические языки — это полноценные (Тьюринг-полные) языки программирования, созданные не для практического использования, а как эксперимент или интеллектуальный вызов. На них можно написать что угодно, но синтаксис максимально непривычный: Brainfuck оперирует всего восемью командами на ленте памяти, Befunge-98 — двумерная сетка, где курсор бегает в четырех направлениях, а в Whitespace код состоит только из пробелов, табов и переводов строк. Главное для бенчмарка — эти языки почти не представлены в обучающих данных: на GitHub у них в 1 000–100 000 раз меньше репозиториев, чем у Python. Если модель решает задачу на таком языке — она действительно рассуждает, а не вспоминает паттерны.

Результаты оказались жесткими. Модели, набирающие 85–95% на стандартных бенчмарках вроде HumanEval, здесь не преодолели барьер в 11%. Лучший результат без агентов — 11,2% у GPT-5.2 на Befunge-98 с итеративной обратной связью от интерпретатора. На Whitespace все модели показали ровный ноль — ни одна не смогла сгенерировать синтаксически валидный код. Характерный провал: GPT-5.2 не сложила 5 и 7 на Brainfuck, потому что парсинг десятичных чисел в этом языке требует приема, которого почти нет в открытых репозиториях.

Единственное, что заметно улучшило результат — прямая обратная связь от интерпретатора: модель генерирует код, получает ошибку,

связь общество Дом и интерьер gemini runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

«Не доверяйте этим приложениям»: создатель Django навайбкодил macOS-утилиты на незнакомом языке habr.com / 3 месяца назад

Кто убедительнее — GPT-5.4 или Claude Opus 4.6? Новый бенчмарк стравил 15 моделей habr.com / 3 месяца назад

Claude Mythos: Anthropic случайно слила данные о своей мощнейшей модели habr.com / 3 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

28.07 / 13:00

бизнес продукты музыка ВТБ конференция Урбан ML: рекомендации, LLM, антифрод и агенты

2 августа в Москве пройдет Урбан ML — открытое мероприятие для специалистов по Data Science, машинному обучению и разработке ИИ-систем.

28.07 / 12:50

продукты Selectel запустил мультизональные кластеры облачных баз данных

Selectel расширил возможности облачных баз данных, добавив поддержку Multi-AZ кластеров в геораспределенном регионе облака ru-6. Теперь пользователи могут развернуть отказоустойчивые кластеры PostgreSQL, MySQL, Redis, TimescaleDB и ClickHouse в актуальных версиях.

28.07 / 12:49

футбол досуг кинотеатр мода и стиль Zebronics PixaPlay 72 Plus: большой экран для домашнего кинотеатра всего за $60

Индийский бренд Zebronics продолжает штамповать бюджетные решения для домашнего досуга, которые заставляют задуматься: а стоит ли вообще покупать дорогой телевизор? Их новинка PixaPlay 72 Plus выглядит как попытка доказать, что большой экран - это не привилегия, а вопрос $60 (2700 грн). Конечно, за такую цену не стоит ожидать «черный цвет, который поглощает душу», но набор характеристик выглядит вполне прилично для непритязательного пользователя.

28.07 / 12:49

технологии закон мода и стиль google Утечка раскрыла характеристики HMD Asha 305 — компактного смартфона с минимальными возможностями

Компания HMD продолжает возрождать некогда культовые линейки: она уже выпустила немало простых кнопочных телефонов под брендом Nokia и, оказывается, активно работает над реинкарнацией серии Nokia Asha, которая в начале 2010-х годов была популярна на многих рынках, как недорогое промежуточное звено между телефонами и смартфонами.

28.07 / 12:47

люди общество семья самит психология Как понять, что вас уважают – 7 неочевидных признаков

Истинное уважение окружающих меняет саму реальность человека, превращая мир в отзывчивую среду.

28.07 / 12:47

общество семья электроэнергия техника возгорания Маленькая ошибка с сушилкой, которая может дорого обойтись

Простое действие занимает меньше минуты, но влияет на расход электроэнергии, работу техники и безопасность дома.

28.07 / 12:41

экономика электроэнергия криптовалюта майнинг майнер CEO MARA: тратить электроэнергию на ИИ выгоднее, чем добывать биткоины

CEO компании MARA Фред Тиль заявил, что тратить энергию на дата-центры для ИИ гораздо выгоднее, чем добывать криптовалюту. По его словам, MARA продолжит майнить биткоины, но только до тех пор, пока это не создает дефицит электричества для нужд ИИ. MARA — это один из крупнейших биткоин-майнеров, а также крупный держатель первой криптовалюты. По данным Bitcoin Treasuries, компания контролирует 36 300 BTC, однако она регулярно сокращает объем портфеля для финансирования расширения в ИИ-сфере. Электроэнергия становится дефицитным ресурсом CEO MARA подчеркнул, что сегодня именно электричество является определяющим фактором в этой сфере. При этом данный ресурс приносит больш

28.07 / 12:24

технологии закон политика законопроект конгресс В Конгресс США внесли законопроект, позволяющий властям замедлять и отключать системы ИИ

В Палату представителей США внесли документ под названием «Закон о выключателе ИИ» (AI Kill Switch Act), который обяжет разработчиков нейросетей сохранять возможность для властей замедлять, приостанавливать и отключать работу своих языковых моделей. Законопроект представили члены нижней палаты американского парламента демократ Тед Лью и республиканец Натаниэль Моран.

28.07 / 12:24

реклама Apple общество законодательство Евросоюз OpenAI открыла доступ к Health in ChatGPT для всех совершеннолетних пользователей США

Health in ChatGPT — это отдельное пространство внутри ChatGPT с усиленными механизмами защиты данных. Пользователи могут импортировать сведения из медицинских порталов, лабораторные результаты, выписки после приема, страховые документы, а также данные из Apple Health и ряда сервисов для отслеживания физической активности и питания. После этого ChatGPT отвечает на вопросы с учетом загруженной информации. Например он может объяснить показатели анализов, помогает подготовить список вопросов врачу или интерпретировать динамику сна и физической активности.

28.07 / 12:02

технологии бюджет самит playstation Игровые консоли У XBOX новая проблема: God of War Laufey затмит Fable на PlayStation 5, а огромный бюджет перезапуска не позволит отказаться от порта

Пару дней назад Sony назвала дату релиза God of War Laufey — новый эксклюзив PlayStation 5 выйдет 16 февраля. Для фанатов франшизы и пользователей японской консоли это будет громкое событие, но одновременно оно станет значительной проблемой для XBOX.

Лента новостей

На главную страницу