
Технологический баттл: OpenAI o3-mini против DeepSeek-R1
Вчера OpenAI выпустила o3-mini — усовершенствованную и более экономичную модель для решения сложных задач в математике, науке и программировании. Модель уже доступна в ChatGPT (включая бесплатную версию) и через API.
Основные улучшения:
• Ускоренное вычисление и сниженная цена. По оценкам OpenAI, o3-mini на 24% быстрее предшественницы o1-mini и обходится дешевле примерно на 63%. Это делает новую модель более выгодной в использовании, учитывая ее высокие «когнитивные» способности.
• Глубина рассуждений. Впервые в линейке рассуждающих моделей OpenAI реализовала три уровня сложности рассуждений — низкий, средний и высокий. В зависимости от уровня запроса и требуемой точности разработчик может либо сэкономить на токенах и времени отклика, либо максимально усилить логику решения.
• Математика и код. По внутренним тестам o3-mini на среднем уровне рассуждений практически не уступает модели o1 при решении олимпиадной математики (например, AIME) и задач на код (Codeforces, SWE-Bench). При высоком уровне рассуждений o3-mini порой превосходит o1, но с чуть большей задержкой (на AIME точность o3-mini — около 83,6%, опережая o1). В задачах соревновательного программирования (Codeforces) o3-mini с высоким уровнем рассуждений достигает 2073 Elo и заметно превосходит o1-mini.
• Безопасность. Разработчики добавили механизм «делиберативного согласования» (deliberative alignment), при котором модель явно анализирует инструкции по безопасности перед выдачей ответа. Это повышает устойчивость к «jailbreak»-атакам.
Модель o3-mini в среднем быстрее и дешевле, чем o1, сохраняя при этом близкий уровень точности в STEM-задачах (задачи из науки, технологий, инжиниринга и математике), а опция выбора уровня рассуждений дает возможность адаптировать
Читать на habr.com