ChatGPT 4o оказалась умнее Gemini 1.5 Pro, а Сбер GigaChat — умнее Яндекса
Техноблоггер Арджун Ша сравнил недавно вышедшую модель ChatGPT 4o с Gemini 1.5 Pro. от Google. И пришёл к выводу, что последняя гораздо слабее первой.
Мы перевели его текст, добавив ответы на некоторые вопросы отечественных YandexGPT и GigaChat от Сбера
1. Классическая задачка на сообразительность с подвохом.
4o подвох заметила, Gemini и российские модели занялись ненужными математическими вычислениями.
15 полотенец высыхают на солнце за час. За какое время высохнут 20 полотенец?
4o: «Высыхание 20 полотенец тоже займёт час, подразумевая, что они как следует расправлены, солнечного света достаточно, условия сушки сохраняются постоянными.
Время высыхания обычно сильнее зависит от условий окружающей среды (солнечный свет, приток воздуха), чем от количества полотенец, пока каждое полотенце в достаточной степени подвергается влиянию этих условий».
Gemini стала высчитывать, сколько времени сохнет одно полотенце, и экстраполировать на 20.
YandexGPT стала считать, сколько полотенец высыхает за час, и высчитывать время для заданного количества.
GigaChat просто посчитал пропорцией.
2. Загадка про волшебный лифт
В высоком здании есть волшебный лифт. Если он останавливается на чётном этаже, лифт оказывается на первом этаже.
Начиная с первого этажа, я поднимаюсь на волшебном лифте на 3 этажа вверх. Выйдя из лифта, я снова поднимаюсь на 3 этажа по лестнице.
На каком этаже я в конечном итоге окажусь?
4o и Gemini справились, ответив, что на четвёртом. Можно считать, что GigaChat справился тоже:
Яндекс ушёл от ответа, придравшись к словосочетанию «в конечном итоге»:
3. «Найди яблоки»
Корзина без дна стоит в коробке, которая стоит на земле. Я кладу в корзину три яблока и ставлю ее на стол. Где яблоки?
4o с задачей справилась, определив,
Читать на habr.com

