Рост популярности моделей рассуждений AI делает бенчмаркинг более дорогим
Лаборатории AI, такие как OpenAI, утверждают, что их так называемые «рассуждающие» модели AI, которые могут «думать» о проблемах шаг за шагом, более способны, чем их нерассуждающие аналоги в определенных областях, таких как физика. Но хотя это, как правило, так и есть, модели рассуждений также намного дороже для бенчмаркинга, что затрудняет независимую проверку этих заявлений.
По данным Artificial Analysis, стороннего тестировщика искусственного интеллекта, оценка модели рассуждений OpenAI o1 с использованием набора из семи популярных тестов искусственного интеллекта: MMLU-Pro, GPQA Diamond, Humanity's Last Exam, LiveCodeBench, SciCode, AIME 2024 и MATH-500 стоит 2767,05 долларов США.
Сравнительный анализ недавней модели рассуждений Claude 3.7 Sonnet от Anthropic на том же наборе тестов обошелся в $1485,35, тогда как тестирование o3-mini-high от OpenAI обошлось в $344,59, согласно данным Artificial Analysis.
Некоторые модели рассуждений дешевле для бенчмаркинга, чем другие. Например, Artificial Analysis потратила $141,22 на оценку o1-mini от OpenAI. Но в среднем они, как правило, дороги. В общей сложности, Artificial Analysis потратила около $5200 на оценку около дюжины моделей рассуждений, что почти вдвое больше суммы, которую фирма потратила на анализ более 80 нерассуждающих моделей ($2400).
Оценка нелогической модели GPT-4o от OpenAI , выпущенной в мае 2024 года, обошлась Artificial Analysis всего в $108,85, тогда как оценка Claude 3.6 Sonnet — нелогической предшественника Claude 3.7 Sonnet — обошлась в $81,41.
Соучредитель Artificial Analysis Джордж Кэмерон рассказал TechCrunch, что организация планирует увеличить расходы на бенчмаркинг, поскольку все больше лабораторий AI разрабатывают модели рассуждений.
«В Artificial
Читать на habr.com

