Об этом же в других СМИ

habr.com / 1 год назад

AGNTCY и будущее агентских технологий: как обеспечить взаимодействие ИИ-агентов

habr.com / 1 год назад

Браузер с искусственным интеллектом: как работает новый ассистент Opera

habr.com / 1 год назад

A-MEM: как новая структура памяти для агентов ИИ помогает решать сложные задачи

habr.com / 1 год назад

GPT-4.5: самая большая модель ИИ от OpenAI или шаг назад в развитии технологий?

habr.com / 1 год назад

Тест BIG-Bench Extra Hard: как он выявляет недостатки в больших языковых моделях

Больше по теме

25.02.2025 - 09:01 / habr.com

Как масштабирование во время тестирования раскрывает скрытые способности к рассуждению в небольших языковых моделях

Согласно новому исследованию Шанхайской лаборатории искусственного интеллекта, очень маленькие языковые модели (SLM) могут превзойти ведущие большие языковые модели (LLM) в задачах рассуждения. Авторы показывают, что при наличии правильных инструментов и методов масштабирования во время тестирования SLM с 1 миллиардом параметров может превзойти LLM 405B в сложных математических тестах.

Возможность использовать SLM в сложных задачах логического мышления может быть очень полезной, поскольку предприятия ищут новые способы применения этих новых моделей в различных средах и приложениях.

Масштабирование во время тестирования (TTS) — это процесс предоставления LLM дополнительных вычислительных ресурсов во время логического вывода для повышения их производительности при выполнении различных задач. Ведущие модели логического вывода, такие как OpenAI o1 и DeepSeek-R1, используют «внутреннее TTS», то есть они обучены «думать» медленно, генерируя длинную последовательность токенов цепочки мыслей (CoT).

Альтернативным подходом является «внешняя TTS», при которой производительность модели повышается (как следует из названия) извне. Внешняя TTS подходит для перепрофилирования существующих моделей для решения задач рассуждения без их дальнейшей тонкой настройки. Внешняя настройка TTS обычно состоит из «модели политики», которая является основным LLM, генерирующим ответ, и модели вознаграждения процесса (PRM), которая оценивает ответы модели политики. Эти два компонента соединяются вместе с помощью метода выборки или поиска.

Самая простая настройка — «best-of-N», когда модель политики генерирует несколько ответов, а PRM выбирает один или несколько лучших ответов для составления окончательного ответа. Более продвинутые внешние методы TTS

политика предприятия крипто mefdayy

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Gemini 2.0: бесплатный агент Google для обработки данных, который значительно экономит время habr.com / 1 год назад

Как сократить затраты на системы ИИ: новый метод исследователей Zoom Communications habr.com / 1 год назад

ИИ учится играть в Super Mario Bros.: какие модели показали лучшие результаты habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

19.07 / 08:10

связь общество gemini Пользователям посоветовали применять генераторы паролей вместо чат-ботов

Многие пользователи обращаются к чат-ботам, чтобы придумать уникальные пароли для входа на разные сервисы. Однако исследование компании Irregular ранее показало, что популярные ИИ вроде Claude, ChatGPTили Gemini склонны генерировать пароли, которые не являются случайными. В связи с этим пользователям дали ряд советов по безопасности.

19.07 / 07:38

ученые здоровье вирус болезнь организм Вирусы научились обходить иммунитет, используя изощренный способ

Ученые совершили открытия, которое поможет отследить путь проникновения вирусов в организм, оставаясь незамеченными иммунитетом.

19.07 / 07:38

продукты здоровье общество самит питание Полезную кашу, которая не подходит для завтрака, назвал эксперт

Оказывается, некоторые виды каш с утра могут негативно отразиться на самочувствии и уровне энергии.

19.07 / 07:27

экономика общество Sony евро Энтузиаст сделал систему игровых картриджей для Steam на базе подержанных накопителей

Один из ПК-геймеров разработал и продемонстрировал удобную систему игровых картриджей для Steam. Он использовал старые SATA-накопители (SSD) формата 2,5 дюйма на 128 ГБ.

19.07 / 07:26

культура смартфоны сад и огород прочее Транспорт «Умный» горшок Helix адаптируется под рост растения

Обычные горшки ограничивают рост растений: со временем корням становится тесно и приходится пересаживать цветок в новую ёмкость, рискуя повредить корневую систему. Компания POTR предложила другой подход и создала Helix — расширяемый горшок в стиле оригами, который может увеличиваться вместе с растением.

19.07 / 07:19

Samsung технологии Путешествия семья доллар Samsung выпустила обновленный портативный проектор The Freestyle+: он получил One UI, HDR10+ и функции на базе ИИ

Спустя почти семь месяцев после официальной презентации Samsung начала продажи нового портативного проектора The Freestyle+ (LFF3H) на американском рынке. Устройство уже доступно на официальном сайте компании и у ряда розничных партнеров по рекомендованной цене 1 199,99 долларов, что по актуальному курсу составляет около 50 300 гривен.

19.07 / 07:17

продукты связь происшествия общество расследование «Солар»: сотрудники крупнейших компаний используют корпоративные учетки на внешних ресурсах

Эксперты центра мониторинга внешних цифровых угроз Solar AURA ГК «Солар», ведущего провайдера комплексной кибербезопасности в России, проанализировали утечки корпоративных учетных данных в крупнейших российских компаниях, найденные в открытых и теневых источниках. В среднем на одну крупную организацию в России приходится более 600 утекших уникальных корпоративных учетных записей, из которых больше половины – с паролем в открытом виде. При этом только в 4% случаев имеются признаки прямой компрометации инфраструктур организаций. В основной же массе речь идет об использовании сотрудниками корпоративных email и паролей на внешних интернет-ресурсах.

19.07 / 07:06

технологии происшествия общество криптовалюта google Consensys случайно наняла связанного с КНДР разработчика в команду MetaMask

Компания Consensys, разработчик криптокошелька MetaMask, случайно наняла связанного с КНДР разработчика под видом консультанта. Инцидент произошел весной 2026 года: специалист около месяца имел доступ к внутренним системам и работал над кодом MetaMask, сообщили в Drop Site. Компания заявила, что быстро выявила угрозу, прекратила доступ и не зафиксировала утечки данных или компрометации пользователей. По данным издания, консультант работал под псевдонимом Tyler Knapp и GitHub-аккаунтом imyugioh. Он был привлечен к разработке ключевых компонентов платформы Met

19.07 / 06:55

Домашние соусы для наггетсов: 5 простых рецептов на любой вкус - Журнал "ФОКУС ВНИМАНИЯ"

Даже самые вкусные куриные наггетсы становятся ещё аппетитнее, если подать их с правильно подобранным соусом. Классический кисло-сладкий, нежный медово-горчичный, насыщенный барбекю, пикантный горчичный или универсальный ранч — каждый из них по-своему раскрывает вкус хрустящей курицы.

19.07 / 06:36

погода продукты фрукты еда Арбузы могут потерять вкус - названы главные правила хранения

Арбузы являются сочными и сладкими ягодами, однако основную роль в этом играет их правильное хранение.

Лента новостей

На главную страницу