Об этом же в других СМИ

habr.com / 1 год назад

Бенчмарк Vals.ai: даже продвинутые AI-агенты ненадежны в финансовом анализе

habr.com / 1 год назад

Supio, платформа юридического анализа на базе искусственного интеллекта, привлекла $60 млн

habr.com / 1 год назад

Взгляните на ГОСТ Р 71207—2024 о статическом анализе кода глазами разработчиков PVS-Studio

habr.com / 1 год назад

Nintendo попросила суд в Калифорнии заставить Discord раскрыть личность пользователя, ответственного за утечку Pokemon

habr.com / 1 год назад

Инструментарий Tracer от VK по сбору и анализу ошибок стал доступен для «ОС Аврора»

Больше по теме

16.04.2025 - 02:50 / hitechexpert.top

Дебаты о сравнительном анализе ИИ дошли до Pokémon

На прошлой неделе в сети появилось вирусное сообщение о том, что последняя модель Gemini от Google превзошла антропный Флагманская модель Клода из оригинальной трилогии Pokémon. Сообщается, что Gemini достигнет Город Лаванды на стриме разработчика на Twitch; Клод застрял на горе Луна по состоянию на конец февраля.

Как отметили пользователи Reddit, разработчик, поддерживающий стрим Gemini, создал специальную мини-карту, которая помогает модели определять «плитки» в игре, например, деревья, которые можно срубить. Это снижает необходимость Gemini анализировать скриншоты перед принятием игровых решений.

Итак, Pokémon — это в лучшем случае полусерьёзный бенчмарк ИИ: мало кто будет спорить, что это очень информативный тест возможностей модели. Но это поучительный пример того, как различные реализации бенчмарка могут влиять на результаты.

Например, Anthropic сообщила о двух результатах для своей недавней модели Anthropic 3.7 Sonnet на бенчмарке SWE-bench Verified, разработанном для оценки способности модели кодировать. Claude 3.7 Sonnet достигла точности 62.3% на SWE-bench Verified, но 70.3% на «пользовательском скаффолдинге», разработанном Anthropic.

Недавно Meta модифицировала версию одной из своих новых моделей, Llama 4 Maverick, чтобы она хорошо работала на определенном бенчмарке, LM Arena. Ванильная версия модели работает значительно хуже на том же бенчмарке.

Учитывая, что тесты искусственного интеллекта, включая Pokémon, изначально являются несовершенными мерами, пользовательские и нестандартные реализации грозят еще больше замутить воду. Другими словами, вряд ли станет легче сравнивать модели по мере их выпуска.

интересное google gemini

Читать на hitechexpert.top

Все новости от hitechexpert.top

Об этом же в других СМИ

Обучение с подкреплением и верифицируемые вознаграждения: анализ эффективности RLVR для языковых моделей habr.com / 1 год назад

Forza Horizon 5 расцветает на PlayStation 5 Pro: технический анализ показал, какие улучшения имеет игра на самой мощной консоли gagadget.com / 1 год назад

3 витамина, которые помогут почувствовать себя живой — без анализов и визитов к врачу - ФОКУС ВНИМАНИЯ fokus-vnimaniya.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

25.07 / 15:37

ученые NASA Луна экспедиция космос На Луне таится серьезная опасность для астронавтов - исследование

Экипажи NASA указали на проблему, которая может возникнуть, когда будет отправлена следующая миссия к Луне.

25.07 / 15:15

животные здоровье общество психология собака Тайны поведения собак – 17 заблуждений назвал эксперт

Многие владельцы ошибочно приписывают собакам человеческие эмоции. Современная наука помогает взглянуть на поведение питомцев совершенно по-новому.

25.07 / 15:15

продукты технологии Apple общество самит Новый MacBook Neo станет заметно быстрее: Apple готовит серьезное обновление доступного ноутбука

Ожидается, что MacBook Neo 2 выйдет только в 2027 году, однако первые подробности уже позволяют понять, каким станет следующее поколение бюджетного ноутбука Apple.

25.07 / 15:15

технологии смартфон интернет общество самит Не только для зарядки: 4 способа использовать USB-порт на роутере

USB-порт на роутере позволяет легко превратить обычную флешку в бесплатное домашнее облачное хранилище.

25.07 / 15:15

технологии хакеры смартфон техника гаджет Хакеры могут взломать смартфон из-за ошибки владельцев - эксперты

Смартфоны часто подвергаются атакам хакеров, которые пытаются похитить данные пользователей.

25.07 / 15:02

Samsung технологии семья политика отпуск Samsung One UI 9: 13 ошибок и ваш смартфон превращается в «кирпич»

Samsung готовит для пользователей One UI 9 настоящий цифровой стоицизм. Компания решила радикально подойти к вопросу безопасности и защиты от грубого перебора паролей (brute-force). Теперь попытка угадать PIN-код превратится в игру в «сапера», где в конце вас будет ждать не просто надпись «попробуйте позже», а полная очистка памяти устройства.

25.07 / 14:48

технологии смартфон общество мобильный телефон лайфхак Ошибка может дорого стоить: где нельзя оставлять смартфон

Привычка класть телефон в первое попавшееся место кажется безобидной, но именно она часто становится причиной перегрева, износа аккумулятора и дорогостоящего ремонта. Приобретая защитные чехлы и стекла, многие забывают о банальных условиях эксплуатации.

25.07 / 14:31

SpaceX Nvidia семья самит инвестор Сектор токенизированных акций в Robinhood Chain вырос почти в семь раз с момента запуска сети

Сектор RWA в сети Robinhood Chain продолжает стремительно расти после запуска мейннета в начале июля 2026 года. По данным DefiLlama, по состоянию на 25 июля активная рыночная капитализация токенизированных активов достигла $72,68 млн, что почти в семь раз больше, чем $10,34 млн 2 июля. Основным драйвером стали токенизированные акции американских компаний, которые постепенно набирают популярность среди пользователей сети. Токенизированные акции: альтернатива брокерам или красивая иллюзия? 22.07.2025 Читать Токенизированные акции стали драй

25.07 / 14:15

АЭС роды электроэнергия энергетика звезда Техас разрешил «зажечь» звезду: термоядерный реактор Texatron выходит на испытания

Пока мир осторожно наблюдает за прогрессом больших государственных проектов, частный сектор в Техасе решил, что хватит ждать милости от природы или бюджетных комитетов. Компания American Fusion сделала важный шаг к реализации своей амбициозной цели — создания коммерчески выгодной термоядерной энергетики. Департамент здравоохранения штата Техас (DSHS) официально выдал разрешение на проведение исследований и испытаний экспериментальной установки Texatron Fusion Engine.

25.07 / 14:09

Samsung технологии Qualcomm самит мода и стиль Samsung усиливает сотрудничество с Qualcomm: почти все главные новинки компании получили процессоры Snapdragon

Официальные материалы Samsung и Qualcomm подтверждают, что флагманские складные смартфоны, новые умные часы, гарнитура смешанной реальности и даже первые смарт-очки компании построены на различных платформах Snapdragon. Это свидетельствует о том, что партнерство между двумя производителями продолжает укрепляться уже более трех десятилетий.

Лента новостей

На главную страницу