Об этом же в других СМИ

habr.com / 1 год назад

Как масштабирование во время тестирования раскрывает скрытые способности к рассуждению в небольших языковых моделях

habr.com / 1 год назад

Microsoft и генеративный ИИ: как компания пытается сохранить интерес разработчиков и игроков

habr.com / 1 год назад

Логические модели OpenAI получили два полезных обновления

habr.com / 1 год назад

Искусственный интеллект учится понимать физику: как AI развивает интуитивные знания о мире

habr.com / 1 год назад

OpenAI меняет стратегию в области разработки с открытым исходным кодом: что ждать дальше?

Больше по теме

06.02.2025 - 06:33 / habr.com

AI-модели, такие как Deepseek-R1 и OpenAI o1, страдают от «недомыслия»: как это можно исправить

Китайские исследователи выяснили, почему AI-моделям часто не удаётся справиться со сложными задачами, требующими логического мышления: они склонны слишком быстро отказываться от многообещающих решений, что приводит к напрасной трате вычислительных мощностей и снижению точности.

Исследователи из Tencent AI Lab, Университета Сучжоу и Шанхайского университета Цзяо Тун показывают, что модели-рассуждатели, такие как o1 от OpenAI, часто переключаются между различными подходами к решению задач, часто начиная с нуля, используя такие выражения, как «В качестве альтернативы…». Такое поведение становится более заметным по мере усложнения задач, и модели используют больше вычислительных мощностей, когда приходят к неправильным ответам.

Команда обнаружила, что 70% неверных ответов содержали по крайней мере одну верную логическую цепочку, которая не была полностью изучена. Когда модели давали неверные ответы, они использовали на 225% больше вычислительных токенов и меняли стратегии на 418% чаще, чем при верных ответах.

Чтобы отследить эту проблему, исследователи создали метрику, которая измеряет, насколько эффективно модели используют вычислительные токены, когда дают неправильные ответы. В частности, они смотрели, сколько токенов действительно способствуют поиску правильного решения, прежде чем модель перейдёт к другому подходу.

Команда протестировала это на трёх сложных наборах задач: вопросы для математических олимпиад, задачи по физике для студентов и задачи по химии. Они хотели посмотреть, как такие модели, как QwQ-32B-Preview и Deepseek-R1-671B, справляются со сложными рассуждениями. Результаты показали, что модели в стиле o1 часто тратят токены впустую, слишком быстро переключаясь между разными подходами. Удивительно, но модели,

Олимпиада интересное крипто токен Tencent mefdayy eps

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Угроза безопасности: как злоумышленники могут манипулировать AI-агентами habr.com / 1 год назад

OpenAI пытается «не подвергать цензуре» ChatGPT habr.com / 1 год назад

Расшифровка мозговой активности: как Meta* и учёные из Испании восстанавливают предложения по сигналам мозга habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

24.07 / 20:03

медицина здоровье история общество прогноз В какой стране женщины будут жить дольше всех в мире

Благодаря развитому здравоохранению и здоровому образу жизни южнокорейские женщины имеют все шансы установить мировой рекорд долголетия.

24.07 / 20:03

люди дети общество психология психика Как распознать нарцисса — 5 вещей, от которых он получает удовольствие

Психологи рассказали, от чего эгоистичные люди получают настоящее удовольствие и почему они так себя ведут.

24.07 / 19:15

технологии Apple общество курс планшеты WhatsApp получил сразу четыре полезных обновления: приложение стало удобнее на iPad, в автомобиле и при работе с PDF

Все нововведения уже начали поэтапно становиться доступными пользователям по всему миру. Как обычно, распространение происходит постепенно, поэтому некоторые функции могут появиться не сразу после установки последней версии приложения.

24.07 / 19:06

бизнес связь общество В России число подключений к публичному WiFi выросло в 3,5 раза за полгода

В России продолжает расти популярность WiFi в общественных местах на фоне проблем с мобильным интернетом. В первом полугодии 2026 года по сравнению с первым полугодием 2025-го количество подключений в публичных городских интернет-сетях увеличилось в 3,5 раза, до 4,1 млрд сессий. К такому выводу пришли аналитики оператора публичного WiFi Hot-WiFi, проанализировав динамику подключений пользователей в центральных районах Москвы. Тенденцию подтвердили крупные провайдеры: «Ростелеком», «Билайн» и «Транстелеком».

24.07 / 19:02

люди недвижимость здоровье семья tiktok «Отрыжка дома»: простая привычка для свежего воздуха в квартире

Эксперты рекомендуют открывать окна на 10–15 минут каждый день для борьбы с аллергенами и плесенью.

24.07 / 18:34

бизнес люди экономика общество самит Как строится первый в мире небоскреб высотой более километра

В Саудовской Аравии активно продолжается строительство первого в мире километрового небоскреба Jeddah Tower, который уже достиг 106 этажа.

24.07 / 18:10

продукты экономика недвижимость общество техника 11 привычек, которые избавят от генеральной уборки

Автор делится простыми ежедневными привычками, которые помогают держать дом в чистоте и откладывать генеральную уборку без лишнего стресса и затрат времени.

24.07 / 18:10

происшествия ученые археология захоронения болезнь Битва или болезнь – ученые нашли странные могилы римских солдат

В Словакии археологи раскопали редкий лагерь времен Марка Аврелия с множеством спешно захороненных легионеров и их снаряжения.

24.07 / 18:05

технологии Выпуск обновления Media Player Classic — Home Cinema 2.7.4

21 июля 2026 года состоялся релиз открытого медиаплеера Media Player Classic — Home Cinema 2.7.4 (MPC‑HC). Исходный код решения написан на С++ и С и опубликован на GitHub под лицензией GNU General Public License v3.0. Версия MPC‑HC 2.0 вышла в январе 2023 года.

24.07 / 17:38

происшествия рубль предприятия TS Solution — первый в России контракт на совместную техническую поддержку UserGate

Компания TS Solution, сертифицированный партнер российского разработчика решений в области кибербезопасности UserGate, объявляет о заключении первого в России контракта с клиентом из финансового сектора на оказание совместной технической поддержки межсетевых экранов UserGate NGFW в рамках проекта вендора «Совместная техническая поддержка».

Лента новостей

На главную страницу