Дебаты о сравнительном анализе ИИ дошли до Pokémon
На прошлой неделе в сети появилось вирусное сообщение о том, что последняя модель Gemini от Google превзошла антропный Флагманская модель Клода из оригинальной трилогии Pokémon. Сообщается, что Gemini достигнет Город Лаванды на стриме разработчика на Twitch; Клод застрял на горе Луна по состоянию на конец февраля.
Как отметили пользователи Reddit, разработчик, поддерживающий стрим Gemini, создал специальную мини-карту, которая помогает модели определять «плитки» в игре, например, деревья, которые можно срубить. Это снижает необходимость Gemini анализировать скриншоты перед принятием игровых решений.
Итак, Pokémon — это в лучшем случае полусерьёзный бенчмарк ИИ: мало кто будет спорить, что это очень информативный тест возможностей модели. Но это поучительный пример того, как различные реализации бенчмарка могут влиять на результаты.
Например, Anthropic сообщила о двух результатах для своей недавней модели Anthropic 3.7 Sonnet на бенчмарке SWE-bench Verified, разработанном для оценки способности модели кодировать. Claude 3.7 Sonnet достигла точности 62.3% на SWE-bench Verified, но 70.3% на «пользовательском скаффолдинге», разработанном Anthropic.
Недавно Meta модифицировала версию одной из своих новых моделей, Llama 4 Maverick, чтобы она хорошо работала на определенном бенчмарке, LM Arena. Ванильная версия модели работает значительно хуже на том же бенчмарке.
Учитывая, что тесты искусственного интеллекта, включая Pokémon, изначально являются несовершенными мерами, пользовательские и нестандартные реализации грозят еще больше замутить воду. Другими словами, вряд ли станет легче сравнивать модели по мере их выпуска.
Читать на hitechexpert.top