Об этом же в других СМИ

ilenta.com / 4 месяца назад

Microsoft готовит Xbox, способный запускать игры для Windows

habr.com / 4 месяца назад

Microsoft объявила даты проведения Build 2026

habr.com / 4 месяца назад

Microsoft запатентовала ИИ-инструмент, который будет проходить сложные участки в играх за пользователя

habr.com / 4 месяца назад

Microsoft: хакеры используют ошибки в OAuth для распространения вредоносного ПО

habr.com / 4 месяца назад

Microsoft забанила слово «Microslop» в своем Discord-сервере

Больше по теме

14.02.2026 - 22:58 / habr.com

Microsoft создала детектор LLM-бэкдоров и назвала 3 признака заражения открытой ИИ-модели

Microsoft объявила о создании нового сканера, способного обнаруживать бэкдоры в крупных языковых моделях с открытыми весами, которые используются в корпоративной среде.

Инструмент направлен на выявление так называемого “отравления” модели – разновидности вмешательства, когда вредоносное поведение внедряется прямо в веса во время обучения. Иначе говоря, модель еще на этапе тренировки заражают скрытым сценарием.

Такие закладки могут годами оставаться в спящем режиме: LLM работают как ни в чем не бывало, пока строго заданные условия-триггеры не запускают нежелательную реакцию.

“По мере того как внедрение растет, должна расти и уверенность в защитных механизмах: если проверять известные сценарии поведения сравнительно несложно, то куда более серьезная задача – обеспечить защиту от неизвестных или эволюционирующих способов манипуляции”, – говорится в блоге компании.

Отдел ИИ-безопасности Microsoft уточняет, что сканер опирается на три наблюдаемых сигнала, которые могут указывать на то, что модель была отравлена:

Первый сигнал проявляется, когда в запрос добавляется триггерная фраза: механизмы внимания модели как будто цепляются за нее, изолируя этот фрагмент, а ответы становятся менее случайными, более предсказуемыми.

Второй связан с эффектом запоминания. Отравленные модели склонны “утекать” собственными даннымы заражения (воспроизводить элементы триггерных фраз или иных фрагментов вредоносного набора), вместо того чтобы опираться на обобщенные знания из обучения.

Третий сигнал показывает, что одну и ту же закладку нередко можно активировать размытыми, неточными формулировками, которые лишь напоминают исходный вредоносный ввод, но не совпадают с ним дословно.

“Наш подход опирается на два ключевых наблюдения, – отмечает Microsoft в

технологии спорт заражение крипто dmitrifriend Microsoft

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Microsoft обновила ROG Xbox Ally X, чтобы автоматически записывать основные моменты пользовательских игровых сессий habr.com / 4 месяца назад

Microsoft анонсировала новые «мини-ПК» для Windows 365 habr.com / 4 месяца назад

Бунт машин (и их создателей): 700 000 работников Amazon, Google и Microsoft выступили против требований Минобороны США habr.com / 4 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 09:45

здоровье дети общество психология мужчина Десять родительских установок, которые обрекают вас на стресс

Желание родителей воспитать "успешного" ребенка часто оборачивается формированием вредных психологических паттернов.

16.07 / 09:25

продукты здоровье общество рак самит Привычные вещи на кухне могут повышать риск рака - онколог

Опасность может скрываться не только в продуктах, но и в том, как вы готовите и храните пищу каждый день.

16.07 / 09:25

продукты промышленность общество самит кровь В крови "зашкаливает" холестерин - названы необычные признаки

Врачи рекомендуют обратить внимание на свои ноги и, в случае выявления опасных симптомов, обязательно проконсультироваться с врачом.

16.07 / 09:25

продукты медицина люди здоровье общество Что нужно есть по утрам, чтобы дольше жить - выводы ученых

Завтрак обязательно должен быть не просто полезным, но и сытным, и вкусным.

16.07 / 09:21

связь экономика смартфоны прочее животный мир Ошейник для собак Fi Ultra со спутниковой связью Starlink

Компания Fi представила трекер для собак Fi Ultra, главной особенностью которого стала поддержка спутниковой сети Starlink.

16.07 / 09:19

технологии экономика смартфон совет лайфхак Как обновить медленный смартфон всего за 10 минут: простой способ

Если ваш смартфон на Android стал работать медленнее, это ещё не значит, что пришло время покупать новый. Чаще всего причиной ухудшения работы гаджета является накопление ненужных файлов, кэша и неиспользуемых приложений, которые перегружают систему.

16.07 / 09:17

продукты Apple нейросети Grok Build становится открытым: Илон Маск убирает лимиты и выкладывает код в паблик

Илон Маск (Elon Musk) продолжает свою игру в «открытость», пока конкуренты из OpenAI обносят собственные модели всё более высокими заборами. Компания SpaceXAI объявила об открытии исходного кода Grok Build и — что значительно приятнее для активных пользователей — полном снятии лимитов на использование инструмента. Теперь каждый, кто имеет доступ к Grok, может использовать ИИ-агента без страха увидеть сообщение о превышении лимита запросов.

16.07 / 09:12

технологии Toyota общество работодатель honda Honda ввела экзамены по ИИ и денежные премии для сотрудников

Honda Motor запустила корпоративную программу сертификации по искусственному интеллекту, которая позволяет сотрудникам подтвердить уровень владения ИИ‑инструментами и получить денежное вознаграждение. Компания рассчитывает таким образом ускорить внедрение ИИ в повседневные рабочие процессы, сообщает Nikkei Asia.

16.07 / 09:12

технологии самит google В Google AI Studio завезли импорт с GitHub

В Google AI Studio официально запустили функцию «Import from GitHub». Об этом сообщил Логан Килпатрик, старший продакт-менеджер Google DeepMind, отвечающий за AI Studio и Gemini API.

16.07 / 09:12

технологии закон Telegram самит Дом и интерьер Приостановлено делегирование домена t.me

Делегирование домена t.me (который используется мессенджером Telegram для коротких ссылок) неожиданно было приостановлено. Судя по статусу serverHold, решение принято не регистратором GoDaddy, а самим оператором доменной зоны .me

Лента новостей

На главную страницу