Мета попала в тесты игрового ИИ
За выходные дни, Мета представила две новые модели Llama 4: модель меньшего размера под названием Scout и модель среднего размера Maverick, которую компания требования может превзойти GPT-4o и Gemini 2.0 Flash «по широкому спектру известных тестов».
Maverick быстро занял второе место на LMArena, сайте тестирования искусственного интеллекта, где люди сравнивают производительность разных систем и голосуют за лучшую. В пресс-релизе Meta компания подчеркнула, что оценка ELO Maverick составила 1417 баллов, что ставит ее выше OpenAI (4o) и немного ниже Gemini 2.5 Pro. (Более высокая оценка ELO означает, что модель с большей вероятностью победит на арене, когда столкнется с конкурентами.)
Это достижение, казалось, позиционирует Llama 4 с открытым исходным кодом от Meta как серьезного конкурента самым передовым моделям с закрытым исходным кодом от OpenAI, Anthropic и Google. Однако исследователи ИИ, копающиеся в документации Meta, обнаружили нечто необычное.
В мелком шрифте Meta признает, что версия Maverick, протестированная на LMArena, отличается от общедоступной. Согласно собственным материалам Meta, она развернула «экспериментальную чат-версию» Maverick на LMArena, которая была специально «оптимизирована для разговорного языка», как впервые сообщил TechCrunch.
«Интерпретация Meta нашей политики не соответствовала тому, чего мы ожидаем от поставщиков моделей», — написала LMArena на X через два дня после выпуска модели. «Meta должна была ясно дать понять, что «Llama-4-Maverick-03-26-Experimental» — это настраиваемая модель, оптимизированная для человеческих предпочтений. В результате мы обновляем нашу политику в отношении таблиц лидеров, чтобы усилить нашу приверженность справедливым, воспроизводимым оценкам, чтобы подобная
Читать на hitechexpert.top
