GPT-5.2 не смогла сложить 5+7. Как эзотерические языки обнулили передовые модели
ИИ-лаборатория Lossfunk представила EsoLang-Bench — бенчмарк из 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Пять фронтирных моделей — GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2 — набрали от 0 до 11% точности на задачах, которые в Python решит любой студент за минуты. Ни одна модель не решила ни одной задачи сложнее уровня Easy.
Эзотерические языки — это полноценные (Тьюринг-полные) языки программирования, созданные не для практического использования, а как эксперимент или интеллектуальный вызов. На них можно написать что угодно, но синтаксис максимально непривычный: Brainfuck оперирует всего восемью командами на ленте памяти, Befunge-98 — двумерная сетка, где курсор бегает в четырех направлениях, а в Whitespace код состоит только из пробелов, табов и переводов строк. Главное для бенчмарка — эти языки почти не представлены в обучающих данных: на GitHub у них в 1 000–100 000 раз меньше репозиториев, чем у Python. Если модель решает задачу на таком языке — она действительно рассуждает, а не вспоминает паттерны.
Результаты оказались жесткими. Модели, набирающие 85–95% на стандартных бенчмарках вроде HumanEval, здесь не преодолели барьер в 11%. Лучший результат без агентов — 11,2% у GPT-5.2 на Befunge-98 с итеративной обратной связью от интерпретатора. На Whitespace все модели показали ровный ноль — ни одна не смогла сгенерировать синтаксически валидный код. Характерный провал: GPT-5.2 не сложила 5 и 7 на Brainfuck, потому что парсинг десятичных чисел в этом языке требует приема, которого почти нет в открытых репозиториях.
Единственное, что заметно улучшило результат — прямая обратная связь от интерпретатора: модель генерирует код, получает ошибку,
Читать на habr.com