



Grok 4 — «AGI у нас дома» или просто хайп?
Как известно, вчера вышла новая итерация ИИ от xAI — Grok 4.
Пока в техсообществе считалось хорошим тоном нахваливать Claude Opus, немного — GPT‑4o, и снисходительно хихикать над творением Илона Маска, Grok ворвался и внезапно взорвал танцпол. По крайней мере — в бенчмарках.
Что это такое: Humanity’s Last Exam — это один из самых амбициозных и по-настоящему сложных бенчмарков для оценки уровня искусственного интеллекта, приближённого к человеческому мышлению. Его невозможно пройти просто доставая информации из интернета или памяти без настоящего логического мышления. К этому экзамену нельзя заранее подготвиться.
Название является шуткой обыгрывающей то, что если ИИ его пройдёт - то человечество больше не нужно. Или не совсем шуткой. Когда ИИ достигнет в нём результата близкого к 100% - что это? Правильно, AGI.
Как он устроен: HLE включает в себя вопросы из реальных школьных, университетских и олимпиадных тестов, которые требуют логики, интуиции, обобщения и многоступенчатого рассуждения. Чтобы модели нельзя было натренировать, тест изолирован от «натаскивания», как это бывает с популярными экзаменами вроде SAT, GRE и т. д.
Почему это важно для AGI: Если ИИ хорошо справляется с HLE — это признак приближения к General Intelligence, а не просто хорошо адаптированный к тесту fine‑tuned болтун. В отличие от стандартных бенчмарков, HLE проверяет глубину понимания, а не натренированность на датасете.
Что это такое: ARC-AGI (или ARC-Challenge) — это бенчмарк из серии Abstraction and Reasoning Corpus, разработанный для оценки способности ИИ к абстрактному мышлению, переносу знаний и решению задач без обучения на примерах.
Как он устроен: Каждая задача — это набор input‑output примеров: ИИ видит лишь несколько пар «вход‑выход», а затем
Читать на habr.com
