Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropic
Исследовательская компания Arthur AI протестировала модели искусственного интеллекта от Meta, OpenAI, Cohere и Anthropic, проанализировав, какие из них чаще выдумывают факты или галлюцинируют.
Кратко подытожив результаты, можно сделать вывод, что GPT-4 от OpenAI (с поддержкой Microsoft) станет лучшим помощником в математических вопросах. Claude 2 от Anthropic лучше всех понимает свои лимиты и места, где он может сделать ошибки. Command AI Cohere чаще всего галлюцинирует, а Llama 2 от Meta посредственный во всех пока выполненных тестах.
Большие языковые модели (LLM) захватили мир штурмом, но они не являются безупречным источником истины. В Arthur & Partners стремились исследовать количественно и качественно, как некоторые из LLM отвечают на сложные вопросы. Собрали наборы сложных вопросов (а также ожидаемые ответы) из трех категорий: комбинаторная математика, президенты США и политические лидеры Марокко. Вопросы были разработаны таким образом, чтобы содержать ключевой компонент, который заставляет LLM ошибаться: они требуют достигать ответа путем нескольких этапов рассуждений.
Тестировали модели gpt-3.5 (~175 млрд параметров) и gpt-4 (~1,76 триллиона параметров) от OpenAI, claude-2 от Anthropic (# неизвестно), llama-2 (70 млрд параметров) от Meta и модель Command от Cohere (~50 млрд параметров).
На комбинаторике gpt-4 показал лучшие результаты, за ним следовал claude-2. На президентах США claude-2 дает больше правильных ответов, чем gpt-4, неплохо показала себя большая языковая модель llama-2.
По марокканским политическим лидерам gpt-4 показал лучшие результаты, а claude-2 и llama-2 воздержались от ответа почти на все вопросы.
Во время нескольких попыток может быть разнообразие в типах ответов LLM: на один и тот же вопрос
Читать на itc.ua

