



Исследователи использовали видео c YouTube, чтобы показать, как модели ИИ справляются с неожиданными ситуациями
Видео с провалами на YouTube показывают, что у ведущих моделей искусственного интеллекта есть серьёзный недостаток: они не справляются с неожиданными ситуациями и редко пересматривают свои первоначальные оценки. Даже такие продвинутые системы, как GPT-4o, спотыкаются на простых сюжетных поворотах.
Исследователи из Университета Британской Колумбии, Института искусственного интеллекта Vector и Наньянского технологического университета протестировали лучшие модели искусственного интеллекта на более чем 1600 неудачных видео с YouTube из набора данных Oops!
Команда создала новый эталонный тест под названием BlackSwanSuite, чтобы проверить, насколько хорошо эти системы справляются с непредвиденными событиями. Как и людей, модели ИИ сбивают с толку неожиданные моменты, но, в отличие от людей, они отказываются менять своё мнение даже после того, как видят, что произошло на самом деле.
Один из примеров: мужчина размахивает подушкой возле рождественской ёлки. ИИ предполагает, что он целится в кого-то поблизости. На самом деле подушка сбивает с ёлки украшения, которые затем падают на женщину. Даже после просмотра всего видео ИИ остаётся при своём первоначальном неверном предположении.
Видеоролики охватывают широкий спектр тем, среди которых чаще всего встречаются дорожно-транспортные происшествия (24%), несчастные случаи с детьми (24%) и несчастные случаи в бассейне (16%). Все их объединяет непредсказуемый поворот событий, который часто ускользает от внимания даже людей.
Каждое видео разделено на три сегмента: установка, сюрприз и последствия. Тест ставит перед LLM разные задачи на каждом этапе. В задаче «Прогнозист» ИИ видит только начало видео и пытается предсказать, что будет дальше. Задача «Детектив» показывает только начало и
Читать на habr.com