Об этом же в других СМИ

gagadget.com / 6 месяцев назад

Серия Oppo Reno 15 выходит на глобальный рынок: предлагаются четыре модели с AMOLED-экранами, достойными камерами и высокой степенью защиты

gagadget.com / 6 месяцев назад

СМИ: Dell возрождает бренд ноутбуков XPS и уже на следующей неделе представит новые модели

habr.com / 6 месяцев назад

Pixio от Meta* доказывает, что простая реконструкция пикселей может превзойти сложные модели компьютерного зрения

habr.com / 6 месяцев назад

Депутат Дмитрий Гусев предложил вернуть IT-ипотеку в Москве и Санкт-Петербурге

gagadget.com / 6 месяцев назад

Инсайдер: iPhone Fold будет дешевле, чем ожидалось, но сразу купить его смогут не все

Больше по теме

17.12.2025 - 07:46 / habr.com

Рассуждающие модели с легкостью могут сдать все три уровня экзамена CFA

Новое исследование показывает, что современные модели логического мышления способны пройти сложный тест для финансовых аналитиков. Gemini 3.0 Pro установил рекорд, набрав 97,6% на первом уровне.

Сертификация Chartered Financial Analyst (CFA) широко считается одной из самых сложных квалификаций в финансовой сфере. Трехэтапный экзамен проверяет навыки, постепенно усложняющиеся от фундаментальных знаний до их применения, анализа и сложного построения инвестиционного портфеля.

В 2023 году ведущие языковые модели того времени уже могли отвечать на некоторые вопросы экзамена CFA. Однако результаты были неоднозначными. ChatGPT (3.5) не справился с уровнями I и II. GPT-4 смог пройти уровень I, но не справился с уровнем II. В конце концов, GPT-4o, работающий как чистая языковая модель, успешно прошел все три уровня.

Новое исследование, проведенное учеными из Колумбийского университета, Политехнического института Ренсселера и Университета Северной Каролины, показывает, что нынешнее поколение моделей рассуждений проходит все три уровня, иногда с почти идеальными результатами.

Исследователи протестировали шесть моделей логического мышления, ответив на 980 экзаменационных вопросов: три экзамена первого уровня (540 вопросов с множественным выбором), два экзамена второго уровня (176 вопросов, основанных на конкретных примерах) и три экзамена третьего уровня (264 вопроса, включая вопросы с открытым ответом). Результат: Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 и DeepSeek-V3.1 прошли все уровни на основе установленных критериев.

Gemini 3.0 Pro показал рекордный результат в 97,6% на первом уровне, базовом тесте, состоящем из независимых вопросов с несколькими вариантами ответа. За ним следует GPT-5 с результатом 96,1%, а

технологии общество самит крипто gemini MrRjxrby Колумбия шт.Северная Каролина

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

«У нас был один большой фейл». Сооснователь Uklon Дмитрий Дубровский о предпринимательском драйве, жизни после экзита и стратегии фонда Nezlamni. Интервью forbes.ua / 6 месяцев назад

OpenAI готовит рекламу в ChatGPT: модели будут приоритизировать спонсорский контент в ответах habr.com / 6 месяцев назад

В 2026 году Samsung выпустит как минимум две модели умных очков ilenta.com / 6 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

25.07 / 18:11

продукты технологии самит «Яндекс» запустил приложение «Яндекс Цветы»

«Яндекс» выделил услугу доставки цветов в самостоятельный продукт и представил приложение «Яндекс Цветы». В нём можно выбрать букеты на любой вкус и повод. Запуск отдельного приложения позволит компании быстрее развивать сервис, отметили там.

25.07 / 18:05

продукты общество семья самит Здоровье и красота Семь продуктов против лишнего веса - что стоит добавить в рацион

Некоторые привычные продукты помогают дольше сохранять сытость и легче контролировать калорийность рациона во время похудения.

25.07 / 18:05

люди оружие общество самит человек Старше Homo sapiens: какое оружие считается древнейшим в мире

Древнейшие образцы оружия появились за сотни тысяч лет до нас, а их создателями могли быть неандертальцы и другие предки человека.

25.07 / 18:05

связь люди ученые дети общество Отцовство может ускорять старение - ученые

Недосып и стресс после рождения детей отражаются на организме, однако с возрастом у родителей обнаруживается неожиданное преимущество.

25.07 / 17:36

технологии экономика Apple общество самит Apple готовит крупнейшее обновление MacBook за пять лет: что известно о новом MacBook Ultra

Официально компания пока не подтверждала существование модели, однако журналист Bloomberg Марк Гурман и аналитик цепочек поставок Мин-Чи Куо практически одновременно сообщили, что Apple активно готовит устройство к производству. По их информации, массовый выпуск может стартовать в конце 2026 года, а презентация ожидается в период с конца 2026-го до начала 2027 года. При этом сроки могут немного сместиться из-за мирового дефицита микросхем памяти.

25.07 / 16:58

Samsung технологии смартфон общество гаджет Почему память Android-смартфона переполнена даже после удаления файлов

Гигабайты памяти могут оставаться занятыми даже после большой чистки, поскольку удаленные данные не всегда исчезают со смартфона сразу.

25.07 / 16:05

Путешествия туризм дети общество отпуск Как собрать чемодан без стресса и перевеса

Чтобы избавить себя от стресса при сборах и насладиться поездкой, достаточно оставить дома некоторые вещи.

25.07 / 16:05

технологии смартфон общество человек гаджет Как GPS узнает, где вы находитесь, и какую роль играет Эйнштейн

GPS определяет положение с точностью до метров, однако для этого системе приходится учитывать эффект, который человек даже не замечает.

25.07 / 15:56

продукты общество обновления правительство Anthropic выпустила Opus 5: почти флагманская мощность за полцены

В индустрии искусственного интеллекта недели считаются за годы, а кварталы — за столетия. Не успели пользователи привыкнуть к майскому релизу модели Opus 4.8, как компания Anthropic представила Opus 5. Это «золотая середина» для тех, кто хочет производительности уровня флагманской Fable 5, но не желает переплачивать за избыточную автономность.

25.07 / 15:37

ученые NASA Луна экспедиция космос На Луне таится серьезная опасность для астронавтов - исследование

Экипажи NASA указали на проблему, которая может возникнуть, когда будет отправлена следующая миссия к Луне.

Лента новостей

На главную страницу