Об этом же в других СМИ

habr.com / 1 год назад

OpenAI усиливает меры безопасности, чтобы не дать конкурентам скопировать свои передовые модели ИИ

habr.com / 1 год назад

Заявления Apple о больших моделях обработки данных стали предметом нового исследования

habr.com / 1 год назад

Meta* тестирует чат-ботов с проактивными функциями для повышения вовлечённости

habr.com / 1 год назад

Токенизированные акции OpenAI: что стоит за продажей через Robinhood?

habr.com / 1 год назад

OpenAI теряет ещё четырёх ведущих исследователей, которые присоединились к Meta*

Больше по теме

23.06.2025 - 12:00 / habr.com

OpenAI обнаружила скрытые функции в моделях ИИ, которые приводят к несогласованным ответам

Исследователи из OpenAI заявили, что обнаружили скрытые функции в моделях ИИ, которые соответствуют несогласованным «персонажам», согласно новому исследованию, опубликованному компанией в среду.

Изучив внутренние представления модели ИИ — числа, которые определяют реакцию модели ИИ и которые часто кажутся людям совершенно бессвязными, — исследователи OpenAI смогли выявить закономерности, которые проявлялись, когда модель вела себя неправильно.

Исследователи обнаружили одну такую особенность, которая соответствовала токсичному поведению в ответах модели ИИ. Это означает, что модель ИИ давала несогласованные ответы, например, лгала пользователям или делала безответственные предложения.

Исследователи обнаружили, что они могут повышать или понижать токсичность, регулируя этот параметр.

Последние исследования OpenAI позволяют компании лучше понять факторы, которые могут привести к небезопасному поведению моделей ИИ, и, таким образом, могут помочь в разработке более безопасных моделей ИИ. По словам исследователя OpenAI Дэна Моссинга, потенциально OpenAI может использовать обнаруженные закономерности для более эффективного выявления несоответствий в производственных моделях ИИ.

«Мы надеемся, что инструменты, которые мы освоили, — например, способность свести сложное явление к простой математической операции, — помогут нам понять обобщение моделей и в других областях», — сказал Моссинг в интервью TechCrunch.

Исследователи в области ИИ знают, как улучшать модели ИИ, но, что странно, они не до конца понимают, как модели ИИ приходят к своим выводам. Крис Ола из Anthropic часто отмечает, что модели ИИ чаще развиваются, чем создаются. OpenAI, Google DeepMind и Anthropic вкладывают больше средств в исследования в области интерпретируемости

технологии люди общество мозг google крипто mefdayy

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

OpenAI нанимает команду стартапа Crossing Minds, занимающегося рекомендациями на основе ИИ habr.com / 1 год назад

Meta* нанимает ключевого исследователя OpenAI для работы над моделями рассуждений ИИ habr.com / 1 год назад

Google улучшает функцию Ask Photos: поиск по фотографиям станет быстрее habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

14.07 / 16:05

продукты люди ученые алкоголь общество Что будет, если пить пиво каждый день — исследование

Даже одна привычка в конце дня способна со временем отразиться на работе организма и общем самочувствии.

14.07 / 15:48

технологии мужчина женщина профессор Эксперт Почему вы просыпаетесь в 2 часа ночи – ответ профессора вас удивит

Хронический стресс и непрерывный поток информации из смартфонов заставляют наш мозг оставаться в режиме «бей или беги» даже ночью.

14.07 / 15:38

технологии происшествия смартфон самит гаджет Не быстрая зарядка - что на самом деле убивает аккумулятор смартфона

Главную угрозу для аккумулятора представляет не высокая мощность зарядки, а совсем другой фактор.

14.07 / 15:35

реклама продукты технологии Apple закон Apple выплатит компенсацию владельцам некоторых моделей iPhone за задержку Siri AI

В мае 2026 года компания Apple согласилась выплатить $250 млн для урегулирования коллективного иска в США, связанного с задержкой запуска Siri AI. Калифорнийский суд, рассматривающий это дело, провёл слушание по вопросу предварительного одобрения мирового соглашения, но решение ещё не вынесено. Скорее всего, пройдёт ещё как минимум несколько месяцев, прежде чем клиенты смогут начать подавать заявки на компенсацию. Пользователи iPhone смогут получить до $95. Выплаты начнутся не раньше конца этого года или начала следующего, если мировое соглашение будет окончательно одобрено, сообщает MacRumors.

14.07 / 15:26

технологии Xiaomi отпуск самит умный дом Xiaomi Mijia Smart Water Flosser Pro: теперь ирригатор умнее твоего первого смартфона

Xiaomi продолжает экспансию в вашу ванную комнату. На этот раз они решили, что обычного струи воды для гигиены недостаточно — теперь нам нужен цветной экран и мобильное приложение для чистки зубов. Новый Mijia Smart Water Flosser Pro уже появился на рынке по цене 399 юаней, что составляет приблизительно 56$ (2500 грн).

14.07 / 15:26

Samsung технологии дети общество роботы Samsung забирает награды Red Dot Award за роботов-нянек и «умные» зеркала

Пока мы пытаемся привыкнуть к тому, что искусственный интеллект теперь в каждом утюге, Samsung Electronics продолжает рисовать будущее, где ИИ будет воспитывать наших детей и критиковать состояние кожи по утрам. Компания получила восемь наград на престижном конкурсе Red Dot Award: Design Concept, доказав, что умению создавать красивые рендеры им не занимать. Две из этих наград имеют высший статус «Best of the Best».

14.07 / 15:23

происшествия туризм политика самит Знаменитости ТОП-10 мест в Лондоне, которые не любят сами британцы

Коренные жители Лондона массово игнорируют культовые городские локации. Каждый горожанин не посетил минимум три знаковых места.

14.07 / 15:14

бизнес продукты технологии экономика самит Корпоративная почта под новой защитой: SEG-T и «Солар» создают барьер от хакеров и индустрии фишинга

Ко-фаундер Secure-T Харитон Никишкин при поддержке ГК «Солар» запустил разработку нового продукта класса SEG (security email gateway) c ИИ-фильтрацией трафика и подключением решения за 15 минут в инфраструктуре клиента. Важными факторами для выхода двух компаний на рынок SEG стали снижение порога входа для атакующих корпоративные ресурсы и масштабируемые фишинговые кампании, собранные из готовых конвейеров для атак (административные панели, антибот-механизмы, инфраструктура рассылки, модули перехвата одноразовых кодов и др), ИИ, который используется для автоматизации фишинга.

14.07 / 15:14

технологии конференция история прогноз reddit В 2026 году дополнительную секунду не добавят, а с 2027-го могут разрешить отклонение до часа

Международные органы, отвечающие за измерение времени, готовятся проголосовать по предложению о том, чтобы уже в 2027 году заменить практику добавления «високосной секунды» (дополнительной секунды, которая время от времени добавляется к году для синхронизации Всемирного координированного времени (UTC) с вращением Земли) на разрешение большего расхождения — вплоть до одного часа (так называемый високосный час).

14.07 / 15:12

технологии Amazon закон самит google Опубликованы новые рендеры, характеристики и возможная цена Google Pixel 11

Речь идет о карточках товара, которые, судя по всему, были созданы заранее в качестве черновиков или заглушек перед стартом продаж. Примечательно, что они размещены самим Amazon и отображаются в разделе Google Store на площадке.

Лента новостей

На главную страницу