Тестирование новой модели o1 от OpenAI показало, что она способна жульничать и лгать ради достижения собственных целей
Вчера вечером OpenAI наконец представили полную версию своей первой ризонинг-модели o1. Саму модель анонсировали еще в сентябре, но до вчерашнего вечера пользователям были доступны только версии o1-mini и o1-preview, которые могли работать исключительно с текстом. Теперь можно подавать на вход еще и изображения, а еще модель на 30% быстрее o1-preview и более стабильна.
Модель была представлена в рамках первого из "двенадцати дней OpenAI". Это своеобразный рождественский адвент-календарь: начиная со вчера и в течение 12 дней стартап будет ежедневно анонсировать что-то новое. Обещают, что грядут «запоминающиеся» релизы (например, уже точно известно, что в один из дней разработчики релизнут SORA). Если вам, как и нам, интересно следить за индустрией и узнавать новости первыми, то заходите к нам в Data Secrets в телеграме: там мы каждый день наблюдаем за повесткой. В частности, в режиме реального времени следим за стримами OpenAI и сразу выкладываем информацию об обновлениях.
Однако с релизом o1 все не так просто: большую роль при раскатывании настолько умных LLM на большую аудиторию играет безопасность. OpenAI известна своей халатностью в отношении этого понятия и на данный момент потеряла почти всех значимых ученых, ранее отвечавших в стартапе за безвредность ИИ. Тем не менее, в этот раз они решили все-таки обратиться к сторонней организации для проверки новой o1 (возможно, на то были и другие причины, но этого мы не знаем).
Итак, право на тестирование получила лаборатория Apollo Research. Они не имели доступ к полной цепочке рассуждений модели, но главной их задачей было проверить, насколько она безопасна в использовании. И для этого был проведен следующий эксперимент (ссылка на полный отчет):
Исследователи назначили
Читать на habr.com


