Тестируем бету YandexGPT 5 с режимом рассуждений
Сегодня мы начинаем публичное бета-тестирование нашей новой модели — YandexGPT 5 с режимом рассуждений. Мы обучили её анализировать задачи и раскладывать их на последовательность шагов, которые упрощают поиск ответов. Режим рассуждений подходит для:
• сложных вопросов без очевидного решения,
• задач, требующих логических рассуждений (например, математических),
• создания стратегий и планов,
• анализа противоречивых данных,
• обработки больших объемов разрозненной информации.
Попробовать новую модель можно в чате с Алисой при наличии подписки Плюс с опцией Про. Теперь вы не только увидите ответ Алисы, но и сможете следить за ходом её мысли в реальном времени. Кроме того, в чате можно дополнительно выбрать режим поиска в интернете. В этом случае рассуждающая модель будет генерировать запросы в поиск Яндекса и опираться в ответах как на собственные знания, так и на найденную в сети информацию.
Чуть более подробно о том, как как устроен режим размышлений в Алисе, какие ещё модели доступны на выбор и какие первые выводы мы сделали из обучения новой reasoning-модели — под катом этой новости.
Бета-версия нашей новой рассуждающей модели построена на базе YandexGPT 5 Pro. Мы много экспериментируем с различными режимами обучения reasoning-модели, поэтому всю историю и финальные детали расскажем отдельной статьей уже после завершения бета-тестирования. Однако мы уже можем поделиться несколькими решениями, в которые сейчас верим:
В качестве отправной точки мы используем SFT-чекпоинт, а не претрейн. Потому что считаем, что у этого подхода большой потенциал. Об этом говорят как наш опыт, так и работы коллег по индустрии.
На стадии SFT растим навыки модели с помощью запросов, для которых можно однозначно определить ответ. Это не только про
Читать на habr.com