Исследование: как скоро ИИ будет работать полный рабочий день
Недавний анализ METR Evaluations показывает, что способность систем искусственного интеллекта поддерживать выполнение задач улучшается быстрыми темпами. Продолжительность автономной работы ИИ удваивается каждые семь месяцев, а к 2027 году системы смогут работать восьмичасовой рабочий день с 50%-ным показателем успешности.
Аналитики METR установили чёткие границы для тестирования успешности длительной работы ИИ. Инструкции для каждой задачи однозначные и предлагают минимальный дополнительный контекст, необходимый для понимания. Каждая задача поставляется с простой для описания алгоритмической функцией оценки.
В то же время большинство задач, выполняемых инженерами-программистами или машинным обучением, как правило, требуют объёмные ссылки на предшествующий контекст, а также не формулируются однозначно. Таким образом, тесты METR сосредоточены на условиях, которые не всегда применимы в реальных сценариях.
Кроме того, 50%-ный показатель успеха вряд ли можно назвать высоким, если сопоставить его с человеческой работой.
Тем не менее, когда пользователь X визуализировал данные METR, отобразив показатели точности 80%, 95% и 99% на логарифмической шкале, результаты подтвердили выводы аналитиков. Шкала показывает, что пороги точности ИИ быстро повышаются, в то время как достижение почти идеальной производительности (99%) следует по гораздо более плавной кривой. Это подчёркивает проблему достижения высокой надёжности выходных данных ИИ. Если достичь показателя в 80% для четырёхчасовых задач можно уже к 2028 году, то показатель в 99% потребует экспоненциально больше усилий.
Даже быстрая, дешёвая и точная на 50% система может изменить правила игры — при условии, что человек сможет быстро проверить её работу. Однако подобный мониторинг
Читать на habr.com