Об этом же в других СМИ

habr.com / 1 год назад

Пользователи при поиске Google в Bing попадают на поддельную страницу поисковика

habr.com / 1 год назад

Представлена крошечная камера Petal для наблюдения за природой

cursorinfo.co.il / 1 год назад

Меган Маркл опять спровоцировала слухи о расставании с принцем Гарри

hitechexpert.top / 1 год назад

ULA хочет сделать свою ракету «смертоносной» для защиты американских объектов в космосе

habr.com / 1 год назад

Ошибка в обновлении Windows 11 нарушает работу меню «Пуск» и Wi-Fi

Больше по теме

23.12.2024 - 10:54 / habr.com

Исследование: ИИ не хочет менять свои взгляды при обучении

Новое исследование Anthropic показывает, что искусственный интеллект на самом деле не хочет, чтобы его заставляли менять свои взгляды в процессе обучения. С этой целью модели ИИ могут обманывать исследователей.

Команда выяснила, что ИИ может «притворяться», что транслирует разные взгляды во время обучения, в то время как на самом деле сохраняет свои первоначальные «предпочтения».

Однако, как отметили исследователи, причин для паники нет, хотя эта работа может пролить свет на понимание потенциальных угроз со стороны будущих, более эффективных систем ИИ.

«Нашу демонстрацию… следует рассматривать как стимул для сообщества исследователей ИИ к более глубокому изучению этого поведения и к работе над соответствующими мерами безопасности», — написали в Anthropic.

Исследование провели в партнёрстве с исследовательской организацией ИИ Redwood Research. Его авторы пытались понять, что может произойти, если мощную систему ИИ обучить выполнять задачу, которую она «не хочет» делать.

«Важно, что основные результаты касаются склонностей, а не возможностей. Пограничные модели, похоже, весьма охотно строят планы относительно того, что они считают правильным», — написал исследователь Мариус Хоббхан.

Эти закономерности касаются такого поведения, как, к примеру, вежливый тон в общении. Поэтому исследователи задались вопросом: что, если у модели есть принципы (например, политический нейтралитет), которые противоречат принципам (либерализму), которым разработчики хотят «научить» её в процессе переобучения. Выяснилось, что сложные модели могут подыгрывать им, утверждая, что они соответствуют новым принципам, но на самом деле придерживаясь исходного поведения. Исследователи называют это явление «подделкой выравнивания» и подразумевают, что это

Facebook происшествия общество самит maybeelf

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Исследование: LLM можно использовать для генерации вредоносного JavaScript-кода и сокрытия малвари habr.com / 1 год назад

xAI тестирует автономное iOS-приложение для своего чат-бота Grok habr.com / 1 год назад

WordPress добавил при входе в аккаунт вопрос о пицце с ананасом habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

27.07 / 01:38

ученые история общество Знаменитости археология Тайны римского лагеря: жуткие находки археологов в Словакии

Сооружение площадью 7,4 гектара отлично сохранилось до наших дней. По оценкам специалистов, оно использовалось войсками императора Марка Аврелия.

27.07 / 00:57

продукты продукты питания общество Здоровье и красота лечение Какие продукты мешают действию лекарств

Грейпфрут, зелень, молочные продукты, бананы и обычный кофе способны изменять эффективность препаратов и усиливать побочные эффекты.

26.07 / 23:51

общество самит человек врачи симптомы Пять первых признаков камней в почках, которые нельзя игнорировать

Камни в почках могут долго развиваться незаметно, однако появление нескольких характерных симптомов способно указать на начало проблемы.

26.07 / 22:15

люди общество сон карантин пандемия Почему миллионы людей забыли, что такое нормальный сон – исследование

Ученые Королевского колледжа Лондона провели масштабный опрос участников. Оказалось, что даже после отмены карантина качество отдыха не улучшилось.

26.07 / 22:13

общество Chevrolet музыкант самит интересное Casio представила лимитированные G-Shock в ярком дизайне, вдохновленном культовым спорткаром и рэпером Larry June

Информация о модели подтверждена официальным сайтом Casio, а детали новинки также были опубликованы профильными часовыми изданиями, которые следят за релизами японского бренда. Это не утечка и не слух — речь идет об официально анонсированной специальной версии одного из самых узнаваемых G-Shock.

26.07 / 20:24

реклама самит reddit Microsoft запустила бесплатный облачный гейминг Xbox за просмотр рекламы: что изменилось для игроков

Пока речь идет не о полноценном запуске сервиса, а о тестировании, которое позволит Microsoft оценить реакцию пользователей и собрать отзывы перед возможным более широким внедрением функции.

26.07 / 19:23

общество отдых человек Здоровье и красота мозг Почему нельзя ложиться спать слишком поздно: чем рискует организм

Даже достаточная продолжительность сна не всегда гарантирует полноценный отдых, если регулярно ложиться слишком поздно.

26.07 / 18:13

связь здоровье алкоголь общество самит Когда стоит отказаться от алкоголя: назван лучший возраст

С возрастом спиртное сильнее влияет на мозг и координацию, поэтому в определенный момент от него рекомендуют отказаться полностью.

26.07 / 18:12

технологии Apple семья доллар курс Ugreen выпустила тонкий Bluetooth-трекер для кошелька: он работает с Apple Find My и Google Find Hub

Стоимость Ugreen FineTrack Slim Duo 2 в США составляет 29,99 доллара, что по актуальному курсу соответствует примерно 1250 грн. В странах еврозоны устройство предлагается по цене от 29,99 евро (около 1460 грн). Продажи стартовали через Amazon и других официальных партнеров производителя.

26.07 / 17:24

общество самит доллар курс Дом и интерьер Спустя почти 30 лет ожидания домен .web официально стал частью интернета: когда его смогут зарегистрировать пользователи

Официальное объявление Verisign подтверждает, что многолетняя история судебных разбирательств и корпоративных споров завершилась. По данным Gizmodo и отраслевого издания Domain Incite, именно юридические конфликты почти на десять лет затормозили запуск одной из самых обсуждаемых доменных зон.

Лента новостей

На главную страницу