

Разбираемся, как устроена R1 – новая бесплатная ризонинг модель ИИ из Китая, работающая на уровне o1 от OpenAI
Вчера, 20 января, китайская лаборатория DeepSeek сделала нам всем настоящий подарок, открыв доступ к новой reasoning-модели R1, которая уже штурмует вершины ML-бенчмарков.
R1 – не просто еще одна рассуждающая модель: это первая бесплатная моделька с открытыми весами, которая добивается таких результатов. На математическом бенчмарке AIME 2024она достигает 79.8%, обогнав даже обновленную версию o1 с ее 79.2%, не говоря уже об o1-mini (63.6%). В кодинге R1 тоже хороша. Например, на Codeforces ее результат – 96.3%, что практически недостижимо для большинства людей.
Моделью уже можно воспользоваться в чате chat.deepseek.com/. Доступно 50 сообщений в день, VPN не требуется. И самое прекрасное: кроме весов и кода DeepSeek выложили замечательный тех.отчет, в котором подробно описали, как им удалось обучить такую мощную модель. Сейчас мы разберем его по полочкам.
Итак, надо сказать, что на самом деле DeepSeek представили не одну модель, а целых 8: саму R1, ее младшую сестренку R1-Zero и 6 дистиллированных, то есть уменьшенных, моделей. К ним еще вернемся, о пока начнем с R1 Zero.
Несмотря на то, что R1 – умнейшая из них, самая интересная с точки зрения техники исполнения, пожалуй, именно R1-Zero. Ноль в названии фигурирует не просто так. Дело в том, что R1-Zero была обучена вообще без использование каких-либо размеченных людьми данных. Учитывая ее результаты, это просто поражает. Большинство LLM обучаются в три этапа:
Претрейн на большом количестве текста. На этом этапе модель выучивается понимать текст и связно его генерировать, а также запоминает факты и набирается общих знаний о мире и языке.
Файнтюнинг. Обучение на размеченных данных вида <вопрос-идеальный ответ>. Нужно для того, чтобы модель научилась лучше следовать
Читать на habr.com

