Новые модели рассуждений AI от OpenAI галлюцинируют больше
Недавно выпущенные OpenAI модели искусственного интеллекта o3 и o4-mini являются передовыми во многих отношениях. Однако новые модели все еще галлюцинируют или выдумывают — на самом деле, они галлюцинируют больше, чем некоторые старые модели OpenAI.
Галлюцинации оказались одной из самых больших и сложных проблем для решения в области AI, влияя даже на самые эффективные сегодняшние системы. Исторически каждая новая модель немного улучшалась в отделе галлюцинаций, галлюцинируя меньше, чем ее предшественница. Но, похоже, это не относится к o3 и o4-mini.
Согласно внутренним тестам OpenAI, o3 и o4-mini, которые являются так называемыми моделями рассуждений, галлюцинируют чаще, чем предыдущие модели рассуждений компании — o1, o1-mini и o3-mini, — а также традиционные «нерассуждающие» модели OpenAI, такие как GPT-4o.
Но, пожалуй, еще большее беспокойство вызывает тот факт, что создатель ChatGPT на самом деле не знает, почему это происходит. В своем техническом отчете для o3 и o4-mini OpenAI пишет, что «необходимы дополнительные исследования», чтобы понять, почему галлюцинации ухудшаются по мере масштабирования моделей рассуждений. O3 и o4-mini работают лучше в некоторых областях, включая задачи, связанные с кодированием и математикой. Но поскольку они «делают больше заявлений в целом», они часто делают «как более точные заявления, так и более неточные/галлюцинаторные заявления», согласно отчету.
OpenAI обнаружила, что o3 галлюцинировал в ответ на 33% вопросов в PersonQA, внутреннем тесте компании для измерения точности знаний модели о людях. Это примерно вдвое превышает частоту галлюцинаций предыдущих моделей рассуждений OpenAI, o1 и o3-mini, которые набрали 16% и 14,8% соответственно. O4-mini показал себя еще хуже в PersonQA —
Читать на habr.com