ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста
Компания OpenAI представила новое семейство моделей GPT-4.1 с впечатляющими улучшениями в области программирования, следования инструкциям и работы с длинным контекстом. Рассмотрим ключевые особенности новинок и их преимущества для разработчиков.
P.S кратко написал об этом в Телеграм канале, cсылка на пост
OpenAI выпустила сразу три модели: флагманскую GPT-4.1, более компактную GPT-4.1 mini и сверхлегкую GPT-4.1 nano. Все они значительно превосходят предыдущее поколение GPT-4o по ключевым показателям и поддерживают контекстное окно до 1 миллиона токенов. Обновленная база знаний моделей включает информацию до июня 2024 года.
GPT-4.1 демонстрирует выдающиеся результаты по трем ключевым направлениям:
Программирование: 54,6% на SWE-bench Verified, что на 21,4% лучше GPT-4o и на 26,6% лучше GPT-4.5
Следование инструкциям: 38,3% на MultiChallenge, превосходя GPT-4o на 10,5%
Длинный контекст: 72,0% на Video-MME в категории длинных видео без субтитров, что на 6,7% лучше GPT-4o
Особенно впечатляет GPT-4.1 mini, которая превосходит GPT-4o по многим показателям, при этом работая почти вдвое быстрее и стоит на 83% дешевле. GPT-4.1 nano, самая компактная модель в линейке, показывает отличные результаты при минимальных затратах ресурсов.
Пока что везде мысленно добавляем "якобы".
В области разработки ПО GPT-4.1 делает огромный шаг вперед. На бенчмарке SWE-bench Verified, измеряющем навыки реального программирования, новая модель выполняет 54,6% задач против 33,2% у GPT-4o.
Модель также значительно лучше работает с форматом diff при редактировании кода, более чем вдвое превосходя GPT-4o в Aider's polyglot diff benchmark и даже превосходя GPT-4.5 на 8%.
Компания Windsurf отмечает, что GPT-4.1 на 60% лучше справляется с их внутренним
Читать на habr.com