



ИИ пока не удается превзойти человеческий интеллект. Как тестируют возможности больших речевых моделей? Разбор The Economist
Для тестирования ИИ создают новые бенчмарки, в которых пытаются испытать большие языковые модели. Пока самые большие успехи показывает команда Anthropic, но развитие ИИ стимулирует их совершенствоваться. Почему тесты гонятся за испытанием ИИ, а не наоборот? Главное из материала The Economist
Купуйте річну передплату на 6 журналів Forbes Ukraine зі змістовними матеріалами, рейтингами та аналітикою від 1 350 грн.
Несмотря на стремительное развитие ИИ, современные языковые модели до сих пор не способны решать все задачи, которые кажутся простыми для человека. Поэтому ученые и разработчики создают новые, более сложные тесты – бенчмарки, чтобы проверить, где действительно проходит предел возможностей машинного интеллекта. Эти испытания показывают, что даже мощные системы могут легко провалиться там, где обычный человек быстро найдет ответ.
Бенчмарки помогают понять, насколько умны и способны современные модели ИИ. Эти тесты проверяют, могут ли модели правильно решать сложные задачи: искать ответы в запутанных головоломках, работать с текстом и картинками одновременно или отвечать на необычные вопросы.
Старые тесты уже слишком простые для новых систем или даже попали в их тренировочные данные. Поэтому разработчики создают новые тесты, чтобы узнать, чего эти модели действительно стоят и как быстро они приближаются к человеческим возможностям.
Тестов для ИИ-моделей достаточно. Однако далеко не все эти бенчмарки действительно выполняют заявленную функцию. Многие были собраны наспех, содержат недостатки и неточности, легко поддаются манипуляциям, пишет The Economist.
Один из таких тестов – ZeroBench, придуманный учеными из Кембриджского университета. Он проверяет большие мультимодальные модели, работающие одновременно с текстом и
Читать на forbes.ua
