Об этом же в других СМИ

cursorinfo.co.il / 1 год назад

Какие продукты делают вас более нервными - их нельзя есть при стрессе

incrypted.com / 1 год назад

В Bitwise спрогнозировали рост биткоина до $1 млн благодаря ETF и спросу со стороны правительств

incrypted.com / 1 год назад

В Минфине США спрогнозировали рост капитализации стейблкоинов до $2 трлн к 2028 году

habr.com / 1 год назад

Alibaba представляет Qwen3, семейство «гибридных» моделей рассуждений AI

hitechexpert.top / 1 год назад

Компания Mphasis отмечает рост популярности бизнеса, основанного на искусственном интеллекте

Больше по теме

14.04.2025 - 07:05 / habr.com

Рост популярности моделей рассуждений AI делает бенчмаркинг более дорогим

Лаборатории AI, такие как OpenAI, утверждают, что их так называемые «рассуждающие» модели AI, которые могут «думать» о проблемах шаг за шагом, более способны, чем их нерассуждающие аналоги в определенных областях, таких как физика. Но хотя это, как правило, так и есть, модели рассуждений также намного дороже для бенчмаркинга, что затрудняет независимую проверку этих заявлений.

По данным Artificial Analysis, стороннего тестировщика искусственного интеллекта, оценка модели рассуждений OpenAI o1 с использованием набора из семи популярных тестов искусственного интеллекта: MMLU-Pro, GPQA Diamond, Humanity's Last Exam, LiveCodeBench, SciCode, AIME 2024 и MATH-500 стоит 2767,05 долларов США.

Сравнительный анализ недавней модели рассуждений Claude 3.7 Sonnet от Anthropic на том же наборе тестов обошелся в $1485,35, тогда как тестирование o3-mini-high от OpenAI обошлось в $344,59, согласно данным Artificial Analysis.

Некоторые модели рассуждений дешевле для бенчмаркинга, чем другие. Например, Artificial Analysis потратила $141,22 на оценку o1-mini от OpenAI. Но в среднем они, как правило, дороги. В общей сложности, Artificial Analysis потратила около $5200 на оценку около дюжины моделей рассуждений, что почти вдвое больше суммы, которую фирма потратила на анализ более 80 нерассуждающих моделей ($2400).

Оценка нелогической модели GPT-4o от OpenAI , выпущенной в мае 2024 года, обошлась Artificial Analysis всего в $108,85, тогда как оценка Claude 3.6 Sonnet — нелогической предшественника Claude 3.7 Sonnet — обошлась в $81,41.

Соучредитель Artificial Analysis Джордж Кэмерон рассказал TechCrunch, что организация планирует увеличить расходы на бенчмаркинг, поскольку все больше лабораторий AI разрабатывают модели рассуждений.

«В Artificial

общество семья самит доллар крипто токен dilnaz04 США

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Alphabet отчиталась о результатах первого квартала 2025 года: рост доходов и инвестиции в ИИ habr.com / 1 год назад

Анонс ужина Трампа вызвал рост объема торгов его мемкоином до $2,3 млрд — отчет incrypted.com / 1 год назад

Flex приобретает Maza, поддерживаемую a16z, за $40 млн на фоне роста популярности слияний и поглощений в финтех-сфере habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

17.07 / 18:47

люди общество болезнь деменция симптомы Эффективная профилактика деменции - как уберечь себя и близких

Эксперты рассказали, как уберечь себя и своих родных от тяжелого возрастного заболевания.

17.07 / 18:38

люди общество самит психология Психология и отношения Как вежливо поставить на место токсичного человека - 10 лучших фраз

Вероятно, каждому из нас доводилось сталкиваться с грубым и неприятным собеседником. Как правильно поставить его на место, не опускаясь до грубости?

17.07 / 18:38

связь люди здоровье климат самоубийство Как глобальное потепление связано с самоубийствами - ответ ученых

Ученые проанализировали последствия глобального потепления, связанные с самоубийствами.

17.07 / 18:38

экономика общество интересное магнит планшеты Ультратонкий ASUS Pad (2026) с Tandem OLED-дисплеем и эргономичной подставкой-”оригами” дебютирует на первом рынке уже 6 августа

В июне на выставке Computex 2026 ASUS представила свой первый за девять лет перерыва планшет — ASUS Pad (2026).

17.07 / 18:38

люди ученые общество роды возраст Ученые выяснили когда чаще всего рождаются долгожители

Люди, которые переживают 100-летний юбилей, чаще всего празднуют день рождения осенью. Ученые выяснили почему.

17.07 / 18:38

происшествия люди семья дождь человек Фатальную ошибку людей во время грозы назвали эксперты

Специалисты объяснили, какие привычки во время грозы могут представлять опасность для жизни.

17.07 / 18:38

люди ученые животные общество самит Что умеют змеи на самом деле: мифы, в которые не стоит верить

Большинство популярных представлений о змеях оказались ошибочными, однако некоторые особенности этих рептилий способны удивить даже ученых.

17.07 / 17:29

экономика искусственный интеллект общество журналист электроэнергия ИИ уже начинает разрушать планету - новое исследование

Развитие инфраструктуры искусственного интеллекта становится не только технологическим прорывом, но и серьезным экологическим вызовом.

17.07 / 17:25

технологии общество мода и стиль Первое городское пространство «Яндекса» откроется в Москве в ноябре 2026 года

В ноябре 2026 года в галерее «Чкалов» на площади Курского вокзала откроется «Яндекс 01» — первое городское офлайн‑пространство «Яндекса». Его главная особенность — персональные рекомендации: на основе интересов посетителя технологии компании предложат маршрут по пространству и помогут подобрать подходящие события, магазины и развлечения. Вход на большинство мероприятий будет свободным.

17.07 / 17:24

технологии экономика Apple общество самит TSMC увеличила инвестиции в производство чипов в США: это может повлиять на будущие процессоры Apple

Тайваньская компания TSMC, являющаяся главным производственным партнером Apple, официально объявила о масштабном расширении своей инвестиционной программы в США. Производитель микросхем направит еще 100 млрд долларов (около 4,16 трлн гривен по актуальному курсу), благодаря чему общий объем вложений в американские предприятия достигнет 265 млрд долларов (примерно 11,02 трлн гривен).

Лента новостей

На главную страницу