Об этом же в других СМИ

forbes.ua / 11 месяцев назад

AI Overviews в поиске Google снижает показатели кликабельности сайтов. Как бизнесам не потерять связь с читателями и клиентами? Советы Forbes USA

cursorinfo.co.il / 11 месяцев назад

Магнитные бури в начале августа 2025: опасные даты и как защититься

cursorinfo.co.il / 11 месяцев назад

Магнитные бури в августе 2025: когда будет "штормить" и как защититься

cursorinfo.co.il / 11 месяцев назад

Сколько вам на самом деле лет: как определить свой биологический возраст, рассказал генетик

gagadget.com / 11 месяцев назад

Российские хакеры угрожают Европе цифровым апокалипсисом: психологическая операция или реальная угроза?

Больше по теме

16.07.2025 - 17:19 / forbes.ua

ИИ пока не удается превзойти человеческий интеллект. Как тестируют возможности больших речевых моделей? Разбор The Economist

Для тестирования ИИ создают новые бенчмарки, в которых пытаются испытать большие языковые модели. Пока самые большие успехи показывает команда Anthropic, но развитие ИИ стимулирует их совершенствоваться. Почему тесты гонятся за испытанием ИИ, а не наоборот? Главное из материала The Economist

Купуйте річну передплату на 6 журналів Forbes Ukraine зі змістовними матеріалами, рейтингами та аналітикою від 1 350 грн.

Несмотря на стремительное развитие ИИ, современные языковые модели до сих пор не способны решать все задачи, которые кажутся простыми для человека. Поэтому ученые и разработчики создают новые, более сложные тесты – бенчмарки, чтобы проверить, где действительно проходит предел возможностей машинного интеллекта. Эти испытания показывают, что даже мощные системы могут легко провалиться там, где обычный человек быстро найдет ответ.

Бенчмарки помогают понять, насколько умны и способны современные модели ИИ. Эти тесты проверяют, могут ли модели правильно решать сложные задачи: искать ответы в запутанных головоломках, работать с текстом и картинками одновременно или отвечать на необычные вопросы.

Старые тесты уже слишком простые для новых систем или даже попали в их тренировочные данные. Поэтому разработчики создают новые тесты, чтобы узнать, чего эти модели действительно стоят и как быстро они приближаются к человеческим возможностям.

Тестов для ИИ-моделей достаточно. Однако далеко не все эти бенчмарки действительно выполняют заявленную функцию. Многие были собраны наспех, содержат недостатки и неточности, легко поддаются манипуляциям, пишет The Economist.

Один из таких тестов – ZeroBench, придуманный учеными из Кембриджского университета. Он проверяет большие мультимодальные модели, работающие одновременно с текстом и

общество самит OpenAI Украина

Читать на forbes.ua

Все новости от forbes.ua

Об этом же в других СМИ

Как болит сердце перед инфарктом - четкие признаки назвал врач cursorinfo.co.il / 11 месяцев назад

Если ИИ будет выполнять 30% всех задач, экономика будет расти на 20% ежегодно. Как это изменит рынок труда и демократию? Разбор The Economist forbes.ua / 11 месяцев назад

Как россияне похищают украинских детей - разведка опубликовала разоблачающие документы cursorinfo.co.il / 11 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

12.07 / 04:36

продукты здоровье общество Здоровье и красота болезнь Назван фруктовый сок, который укрепляет сердце

Напиток содержит антиоксиданты, витамины и минералы, которые могут помочь укрепить иммунную систему.

12.07 / 04:25

музыка отдых магия Эксперт мозг Магия шума дождя – как природа помогает победить бессонницу и стресс

Засыпание под звуки природы помогает не только быстрее погрузиться в глубокий сон, но и значительно снижает уровень стресса.

12.07 / 04:25

погода люди алкоголь общество человек Почему пить алкоголь в жару опасно — ответ врачей

Высокая температура воздуха способна изменить реакцию организма на алкоголь и усилить нежелательные последствия.

12.07 / 01:55

происшествия ученые история общество археология Послание из Нового царства – археологи нашли свиток заклинаний

Международная группа исследователей отчиталась о завершении раскопок крупного скального некрополя. Ученые нашли нетронутые гробницы вельмож.

12.07 / 00:32

продукты питания золото самит Эксперт кулинария «Золотое правило» выбора дыни – на что смотреть в первую очередь

Главный секрет выбора идеально спелой и сладкой дыни, по словам опытных фермеров, заключается в осмотре плодоножки.

11.07 / 23:29

продукты медицина общество Здоровье и красота лечение Продукты, которые облегчат боль в суставах, назвали врачи

Эксперты уверяют, что натуральные продукты могут быть такими же эффективными против боли, как и лекарства.

11.07 / 23:29

люди здоровье спорт общество самит Чай может навредить организму при одной распространенной привычке

Одна распространенная привычка при употреблении чая может свести на нет часть его полезных свойств.

11.07 / 21:54

технологии самит доллар мода и стиль Ariel Rider представила электровелосипед со скоростью до 105 км/ч и запасом хода до 200 км

Формально устройство остается велосипедом благодаря наличию педалей, однако его характеристики больше напоминают легкий электрический мотоцикл. Стоимость новинки составляет 2800 долларов (около 115 000 гривен), что выглядит весьма конкурентоспособным предложением с учетом заявленных возможностей.

11.07 / 21:11

технологии общество самит землетрясении токен Магнитная левитация и японское терпение: Linear Chuo Shinkansen поедет в 2037 году

Япония — это страна, где поезда опаздывают только во время крупных землетрясений, а задержка на минуту считается национальной трагедией. Однако даже в этом железнодорожном раю есть проекты, которые буксуют годами. Самый амбициозный из них — маглев Linear Chuo Shinkansen — наконец получил шанс на реализацию. После длительных споров оператор линии JR Central смог договориться с властями префектуры Сидзуока (Shizuoka), что фактически разблокировало строительство наиболее проблемного участка.

11.07 / 20:15

технологии Apple история общество самит Windows впервые за многие годы опустилась ниже 60% рынка ПК, а Linux продолжает укреплять позиции

По данным StatCounter, в июне 2026 года Windows занимала 56,55% мирового рынка настольных операционных систем. Для платформы, которая десятилетиями практически безоговорочно доминировала на компьютерах по всему миру, это стало знаковым событием.

Лента новостей

На главную страницу