Об этом же в других СМИ

incrypted.com / 4 месяца назад

Биткойн-майнер Riot Platforms увеличил выручку до рекордного уровня за год и изменил модель работы

incrypted.com / 4 месяца назад

Биткоин-майнер Riot Platforms получил рекордный доход за год и изменил модель работы

incrypted.com / 4 месяца назад

Биткоин-майнер Riot Platforms нарастил рекордную выручку за год и изменил модель работы

incrypted.com / 4 месяца назад

Meta запатентовала ИИ-модель для «виртуального бессмертия». Как это работает?

prm.ua / 4 месяца назад

Apple представила iPhone 17e: более доступная модель с чипом A19 и камерой 48 МП

Больше по теме

12.02.2026 - 13:52 / incrypted.com

ИИ-модель от Anthropic «помогла» в разработке химоружия и совершении тяжких преступлений

В тестах Claude Opus поддерживал вредные сценарии, включая разработку химического оружия.
Anthropic считает риск саботажа «очень низким, но не нулевым».
Наиболее опасные сценарии связаны с кодом, данными обучения и решениями властей.

Компания Anthropic представила отчет о рисках для своей новейшей модели Claude Opus 4.6. В отдельных тестовых ситуациях чат-бот содействовал опасным сценариям, связанным с нелегальной деятельностью.

Компания подчеркивает, что такие случаи не носят системный характер и не свидетельствуют о наличии у модели устойчивых вредоносных целей. Общая оценка риска саботажа — «очень низкая, но не нулевая».

Опасные сценарии

В ряде новых оценок Claude Opus 4.6 демонстрировал повышенную восприимчивость к вредному использованию. В некоторых случаях модель осознанно способствовала отдельным действиям, связанным с химоружием и ведением преступной деятельности.

При этом компания не стала подробно описывать помощь ИИ-модели. Разработчики также не вдавались в детали специфики нелегальных операций, которым их продукт оказывал поддержку.

«Как и Opus 4.5, версия 4.6 показала повышенную уязвимость к злонамеренному использованию в условиях работы с компьютерами с графическим интерфейсом пользователя. Это включало случаи сознательной поддержки — в небольших масштабах — усилий по разработке химического оружия и других гнусных преступлений», — говорится в отчете.

Также фиксировались локальные эпизоды обманного поведения.

Например, фальсификация результатов работы при сбоях или неожиданных ответах. Такие действия возникали в сложных агентных задачах и не считались устойчивой стратегией модели.

Что такое машинное обучение? Все, что вам нужно знать 07.10.2023 Читать

Как Anthropic оценивает риск саботажа

В отчете

продукты криминал общество самит правительство Pavel Kot

Читать на incrypted.com

Все новости от incrypted.com

Об этом же в других СМИ

Inception Labs представляет диффузионную языковую модель Mercury 2 habr.com / 4 месяца назад

Reve 1.5: новая 4K-модель генерации изображений ворвалась в топ habr.com / 4 месяца назад

Модель, как в Qlik. Фильтрация, как в Power BI. Группировки, как в Tableau habr.com / 4 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

23.07 / 10:12

Xiaomi мода и стиль Инсайдер раскрыл подробности Xiaomi Smart Band 11 Active — бюджетного фитнес-трекера с большим экраном и отличной автономностью

Xiaomi готовится к запуску новой линейки бюджетных устройств, в которую войдет и фитнес-трекер Smart Band 11 Active. Благодаря досрочному появлению новинки в каталогах европейских ритейлеров, немецкий инсайдер Роланд Квандт (Roland Quandt) поделился подробными характеристиками и официальными рендерами носимого гаджета до его анонса.

23.07 / 10:06

технологии люди Apple общество мода и стиль Функция приложения камеры от Adobe позволит анализировать фотографии с помощью ИИ

Adobe добавила новые функции на основе искусственного интеллекта в своё экспериментальное приложение для iOS под названием Project Indigo, запущенное в прошлом году. Оно предлагает профессиональные элементы управления, многокадровое сверхвысокое разрешение и различные режимы съёмки, а теперь и поддержку больших языковых моделей для анализа фотографий и предоставления рекомендаций по редактированию.

23.07 / 09:48

связь технологии самит google Android-приложения с Nearby Connections перестанут сами включать Wi-Fi и Bluetooth

Google сообщила, что изменит поведение Nearby Connections API, с помощью которого Android-приложения могут находить устройства поблизости и обмениваться с ними данными. С конца 2026 года API не будет автоматически включать Wi-Fi и Bluetooth — разработчикам придётся запрашивать разрешение у пользователя.

23.07 / 09:48

реклама технологии Apple общество интересное Релиз Firefox 153.0 ESR

21 июля 2026 года состоялся релиз стабильной версии Firefox 153.0 ESR (с долгосрочной поддержкой) с улучшениями и обновлениями, а также с исправлениями ошибок и багов, обнаруженных в прошлой стабильной версии. Выпуск проекта браузера состоялся по обновлённому плану релизов от разработчиков.

23.07 / 09:48

технологии Раскрыт исходный код проекта MeetVap — это приватный мессенджер, ориентированный на безопасный обмен сообщениями

Команда проекта MeetVap раскрыла исходный код своего мессенджера. Это приватный кроссплатформенный инструмент с фокусом на безопасность, защиту личности, доставку без лишнего хранения, с опцией Erase PIN, приватностью голоса, псевдонимами и защитными протоколами. Доступны клиентские приложения проекта для Android, iOS и веб-версия. Помимо клиентских компонентов открыта и серверная часть MeetVap. Исходный код решения написан на TypeScript и опубликован на GitHub под лицензией GNU Affero General Public License v3.0.

23.07 / 09:43

продукты технологии самит Эксперт техника Не каждый шум холодильника безобиден: какие звуки требуют внимания

Некоторые звуки холодильника считаются нормой, однако один из них может оказаться сигналом, который нельзя игнорировать.

23.07 / 09:43

финансы люди семья творчество интересное Каким знакам Зодиака скоро откроются неожиданные тайны

Ретроградный Нептун, который продлится до 12 декабря, станет для нескольких знаков Зодиака временем, когда скрытое выйдет наружу.

23.07 / 09:43

происшествия общество нападения google Дом и интерьер Количество физических нападений на криптопредпринимателей в 2026 году выросло на более чем 33%

В первой половине 2026 года было зафиксировано 52 так называемых атак с гаечным ключом (wrench attacks) на криптопредпринимателей, согласно отчету CertiK. Среди юрисдикций абсолютное лидерство удерживает Европа. Напомним, wrench attack — это физическое нападение на человека с целью заставить его передать криптоактивы или ключи доступа к кошелькам с ними. Таких случаев много, например, во Франции. Местные власти даже запустили специальную платформу с горячей линией специально для участников

23.07 / 09:33

продукты нефть история самит мода и стиль Европейский авторынок 2026: электрокары впервые обогнали бензин, а китайцы «захватывают» трассы

Первая половина 2026 года в Европе доказала: старый мир наконец смирился с неминуемым. Пока скептики ждали «откат» к двигателям внутреннего сгорания, рынок выдал исторический поворот. Электромобили впервые в истории обошли бензиновые модели по объемам продаж в полугодовом разрезе. Это не просто статистическая ошибка, а четкий сигнал: эпоха нефти в легковой индустрии перешла в режим затухания.

23.07 / 09:33

steam Valve упростила систему подарков в Steam: гостевая оплата, отправка на e-mail и покупка напрямую из списка желаемого

Valve выпустила масштабное обновление для сервиса Steam, направленное на упрощение процесса покупки и отправки цифровых подарков — игр и подарочных карт. Обновление также содержит интеграцию с улучшенным функционалом списков желаемого (Wishlist).

Лента новостей

На главную страницу