Об этом же в других СМИ

itc.ua / 2 года назад

Аватары Meta наконец-то «отрастили» ноги – пока для бета-версии Quest Home

politeka.net / 2 года назад

"Мисс Украина Вселенная-2023" показала своих соперниц: как они выглядят и кому пророчат победу

focus.ua / 2 года назад

Странное место: как будет выглядеть Вселенная, если лететь быстрее скорости света

nv.ua / 2 года назад

«Худший день был, когда погибла Аида». Агробизнесмен Всеволод Кожемяко, который командует подразделением Хартия, — о своей войне

focus.ua / 2 года назад

Ранняя Вселенная была не совсем такой, как предполагалось: на это указывают черные дыры

Больше по теме

17.08.2023 - 13:36 / itc.ua

Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropic

Исследовательская компания Arthur AI протестировала модели искусственного интеллекта от Meta, OpenAI, Cohere и Anthropic, проанализировав, какие из них чаще выдумывают факты или галлюцинируют.

Кратко подытожив результаты, можно сделать вывод, что GPT-4 от OpenAI (с поддержкой Microsoft) станет лучшим помощником в математических вопросах. Claude 2 от Anthropic лучше всех понимает свои лимиты и места, где он может сделать ошибки. Command AI Cohere чаще всего галлюцинирует, а Llama 2 от Meta посредственный во всех пока выполненных тестах.

Большие языковые модели (LLM) захватили мир штурмом, но они не являются безупречным источником истины. В Arthur & Partners стремились исследовать количественно и качественно, как некоторые из LLM отвечают на сложные вопросы. Собрали наборы сложных вопросов (а также ожидаемые ответы) из трех категорий: комбинаторная математика, президенты США и политические лидеры Марокко. Вопросы были разработаны таким образом, чтобы содержать ключевой компонент, который заставляет LLM ошибаться: они требуют достигать ответа путем нескольких этапов рассуждений.

Тестировали модели gpt-3.5 (~175 млрд параметров) и gpt-4 (~1,76 триллиона параметров) от OpenAI, claude-2 от Anthropic (# неизвестно), llama-2 (70 млрд параметров) от Meta и модель Command от Cohere (~50 млрд параметров).

На комбинаторике gpt-4 показал лучшие результаты, за ним следовал claude-2. На президентах США claude-2 дает больше правильных ответов, чем gpt-4, неплохо показала себя большая языковая модель llama-2.

По марокканским политическим лидерам gpt-4 показал лучшие результаты, а claude-2 и llama-2 воздержались от ответа почти на все вопросы.

Во время нескольких попыток может быть разнообразие в типах ответов LLM: на один и тот же вопрос

президент OpenAI Meta США Украина Марокко Microsoft

Читать на itc.ua

Все новости от itc.ua

Об этом же в других СМИ

VR-гарнитура Meta Quest 3 уже засветилась в видео распаковки itc.ua / 2 года назад

Чтобы мы жили, звезды умерли. Все люди созданы из звездного вещества: как это может быть focus.ua / 2 года назад

Изучение ранней Вселенной: насколько далеко астрономы могут заглянуть в прошлое focus.ua / 2 года назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

28.07 / 10:09

реклама технологии происшествия общество reddit LG по указанию Microsoft удалит всплывающую рекламу McAfee из своего установщика приложений

LG удалит всплывающую рекламу McAfee из приложения для мониторов, которое незаметно установили на подключённые компьютеры на Windows. Компания идёт на такой шаг по требованию Microsoft.

28.07 / 10:09

технологии Вышел Tails 7.10

23 июля 2026 года состоялся выпуск специализированного дистрибутива Tails 7.10, ориентированного на конфиденциальность, основанного на пакетной базе Debian 13 (ядре Linux 6.12 LTS), поставляемого с рабочим столом GNOME 48 и предназначенного для анонимного выхода в сеть. Выпуск Tails 6.0 произошёл в феврале 2023 года. Версия Tails 7.0 представлена в сентябре 2025 года.

28.07 / 10:06

Путешествия Xiaomi общество автомобили Xiaomi Skynomad: Кроссоверы, которые не боятся разряженной батареи и «дешевого» топлива

Xiaomi продолжает активно расширять свое влияние на автомобильном рынке. Пока владельцы седанов SU7 наслаждаются динамикой, компания готовит тяжелую артиллерию для семейных поездок и путешествий туда, где зарядные станции — это редкость. Линейка кроссоверов Skynomad на базе платформы Kunlun обещает решить главную проблему электрокаров: страх остаться с пустой батареей посреди трассы.

28.07 / 10:06

Xiaomi электроэнергия Xiaomi Skynomad: гигантские кроссоверы с бензиновым «удлинителем» и архитектурой Kunlun

Xiaomi Auto решила, что чистых электрокаров в портфолио маловато, поэтому пришло время добавить немного доброго старого сжигания бензина. Накануне технической презентации, запланированной на 30 июля 2026 года, компания раскрыла подробности о своей новой линейке кроссоверов Skynomad (澎程). Главная особенность серии — гибридная система, где двигатель внутреннего сгорания работает исключительно как генератор для зарядки батарей.

28.07 / 10:06

связь технологии Топовые чипы Snapdragon, до 32 Гб оперативки и два варианта IPS-дисплея — премиальный бизнес-ноутбук Lenovo ThinkPad T14s Gen 7 вышел на глобальный рынок

Lenovo выпустила на глобальный рынок обновленный бизнес-ноутбук ThinkPad T14s Gen 7 Snapdragon Edition. Новинка получила переработанный, более жесткий корпус весом всего 1,19 кг и строится на базе новейших ARM-процессоров Qualcomm.

28.07 / 09:47

оружие искусственный интеллект законодательство расследование биологи ChatGPT помогал создавать биооружие – расследование WSJ

Эксперты назвали ответы искусственного интеллекта потенциально смертельными. По их словам, следовать инструкциям смог бы даже школьник с базовыми знаниями.

28.07 / 09:47

технологии Apache Выпуск обновления открытого инструмента для сетевого мониторинга Sniffnet 1.5.1

Во второй половине июля 2026 года состоялся релиз открытого кроссплатформенного инструмента для сетевого мониторинга Sniffnet 1.5.1. Исходный код проекта опубликован на GitHub под лицензиями MIT и Apache License 2.0. Сетевой инструментарий полностью разработан на языке программирования Rust. Стабильная версия проекта v1.3.0 вышла в апреле 2024 года, выпуск Sniffnet 1.4.0 произошёл в июне 2025 года. Сборка Sniffnet 1.5.0 вышла в апреле 2026 года.

28.07 / 09:47

связь ученые экспедиция марс Земля Марс оказался очень похожим на Землю - что выяснили ученые

Исследователи узнали, какие процессы в атмосфере Марсе являются почти идентичными земным,

28.07 / 09:47

технологии люди курс Вышел AnyDesk 9.7.11 для Windows, AnyDesk 9.7.3 для macOS и AnyDesk 8.5.0 для Android

Во второй половине июля 2026 года состоялся релиз кроссплатформенного инструмента для обеспечения удалённого доступа к ПК и мобильным устройствам AnyDesk 9.7.11 для Windows, AnyDesk 9.7.3 для macOS и AnyDesk 8.5.0 для Android. Выпуск AnyDesk 8.0 для Windows состоялся в августе 2023 года. В декабре 2024 года вышел AnyDesk 9.0 для Windows.

28.07 / 09:39

продукты технологии Nike самит мода и стиль Теперь придется заряжать еще и тапки: Nike представила “умную” обувь Air Zoom Hyperslide для восстановления ног после тренировок

Nike в сотрудничестве с компанией Hyperice анонсировала технологичную обувь Nike Air Zoom Hyperslide. Модель разработана для расслабления и восстановления стоп после спортивных тренировок и стала вторым совместным продуктом брендов после высоких кроссовок Hyperboot.

Лента новостей

На главную страницу