Об этом же в других СМИ

gagadget.com / 1 год назад

Apple может выбрать технологию W-OLED+CF от Samsung для своей бюджетной гарнитуры Vision Pro

gagadget.com / 1 год назад

Генеральный директор Apple Тим Кук поздравил Дональда Трампа с победой на президентских выборах США

gagadget.com / 1 год назад

Илон Маск будет готов выпустить Tesla Phone, если его вынудят Apple и Google

obozrevatel.com / 1 год назад

Meta разрабатывает свою поисковую систему: как будет задействован ИИ

gagadget.com / 1 год назад

Планы изменились: инсайдер сообщил, что Apple отложила выпуск бюджетной модели Vision Pro до 2027 года

Больше по теме

18.10.2024 - 08:23 / habr.com

Исследование Apple выявило недостатки в LLM от OpenAI, Google и Meta*

Исследование, проведенное учеными из Apple, ставит под сомнение интеллектуальные способности крупных языковых моделей (LLM) от OpenAI, Google и Meta*, которые ранее получили признание за свои впечатляющие навыки рассуждения. Исследователи утверждают, что эти модели скорее демонстрируют «сложное сопоставление шаблонов», чем «истинное логическое мышление». Даже продвинутые модели, такие как OpenAI o1, не исключение.

Одним из основных тестов для проверки навыков рассуждения языковых моделей является GSM8K. Однако его популярность создала риск того, что модели могли быть обучены на его данных, что искажает представление о их реальных способностях. Проще говоря, модели могут «знать» ответы заранее, что ставит под сомнение их способность решать задачи самостоятельно, без опоры на заранее выученные данные.

Чтобы оценить способность LLM к настоящему рассуждению, команда разработала новый тест — GSM-Symbolic. Этот тест сохраняет суть традиционных задач, но меняет переменные, такие как имена, числа, сложность, а также добавляет несущественную информацию, которая не влияет на решение. В результате тестирования более 20 моделей, включая OpenAI o1, GPT-4o, Gemma 2 (Google) и Llama 3 (Meta*), было выявлено снижение точности при любых изменениях в задачах.

Даже при незначительных изменениях переменных (например, имен или чисел) точность моделей снизилась на несколько процентов. Модели OpenAI показали лучшие результаты по сравнению с другими, но отклонения всё равно были значительными, что не должно было происходить при стабильной работе. Самый интересный момент произошел, когда исследователи добавили в задачи «кажущиеся важными, но на деле несущественные утверждения».

Чтобы проверить, действительно ли LLM опираются больше на сопоставление

Apple самит интересное google kr23ka Microsoft

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Apple признала дефект камеры iPhone 14 Plus и предлагает бесплатный ремонт itc.ua / 1 год назад

OpenAI начнёт использовать чипы AMD и сможет создать собственное оборудование для ИИ в 2026 году habr.com / 1 год назад

Meta* работает над собственной поисковой системой на базе искусственного интеллекта habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

20.07 / 17:47

связь люди общество семья сон Ученые рассказали про связь между проблемами со сном и риском инсульта

Ученые доказали, что нехватка сна может прямо угрожать жизни человека.

20.07 / 17:47

продукты технологии промышленность общество предприятия Кампания HelloNet использует систему обновления ViPNet для закрепления и загрузки вредоносных модулей

Специалисты «Лаборатории Касперского» выявили кампанию HelloNet. В ней злоумышленники используют новые вредоносные модули и систему обновления ViPNet. Атака началась не позднее мая 2026 года и продолжалась на момент публикации исследования.

20.07 / 17:47

общество электроэнергия техника Дом и интерьер Привычку, из-за которой растут счета за электроэнергию, назвал эксперт

Некоторые бытовые приборы расходуют электроэнергию круглосуточно, даже если ими никто не пользуется.

20.07 / 17:47

связь люди экономика самит стартап Карьерные советы от экс-сотрудника OpenAI и Google DeepMind в эпоху ИИ

Бывший исследователь OpenAI и софтверный инженер в Google DeepMind и Scale AI Фил Чен, основатель собственного ИИ-стартапа, поделился карьерными советами в эпоху ИИ.

20.07 / 17:20

продукты происшествия люди здоровье самит Что пить для снижения давления - медики назвали пять напитков

Какие напитки помогут снизить давление и взять его показатели под контроль в долгосрочной перспективе, рассказали специалисты.

20.07 / 17:20

продукты здоровье общество фрукты Здоровье и красота Сколько овощей и фруктов нужно есть ежедневно на самом деле

Растительная пища считается наиболее полезной для здоровье, а достаточное количество овощей и фруктов могут уберечь от множества болезней.

20.07 / 17:19

технологии закон вирус расследование доллар ФБР арестовало предполагаемого организатора схемы с вирусами в играх Steam: пострадали тысячи пользователей

Информация основана на федеральном обвинительном заключении, которое ранее опубликовало издание Local 10 News. Детали расследования также совпадают с мартовским обращением ФБР к пользователям Steam, пострадавшим от зараженных игр.

20.07 / 16:57

Samsung смарт-часы Galaxy Watch Ultra 2: яркость 5000 нит, защита IP69K, тонкий корпус и другие подробности новинки от авторитетного инсайдера

В сети появились важные подробности о следующем поколении премиальных смарт-часов Samsung — Galaxy Watch Ultra 2. Технические характеристики грядущей новинки раскрыл авторитетный инсайдер Эван Бласс (Evan Blass).

20.07 / 16:57

технологии интересное Bose готовит к выпуску наушники QuietComfort (2nd Gen) — инсайдер раскрыл главные улучшения, цену и цвета новинки

Французский инсайдер billbil-kun принес интересные новости для любителей качественной аудиоперифирии и тех, кому она нужна в профессиональных задачах. Он поделился эксклюзивной информацией о готовящихся к выходу беспроводных наушниках Bose QuietComfort 2nd Gen, которые станут обновлением базовой модели QuietComfort, выпущенной в 2023 году.

20.07 / 16:42

ученые общество климат самит прогнозы Климат изменится — Тихий океан готовит исторический погодный удар

Синоптики прогнозируют аномальное тепло в Европе и резкие температурные контрасты в США.

Лента новостей

На главную страницу