Релиз открытой модели ByteDance: Seed-OSS-36B с контекстом в 512 000 токенов
TikTok снова в центре внимания — на этот раз благодаря Белому дому, который завёл аккаунт в популярном приложении. Но сюрприз подготовила и сама ByteDance, китайский интернет‑гигант: компания представила новую разработку в области искусственного интеллекта.
Исследовательская команда Seed Team выпустила Seed‑OSS-36B на платформе Hugging Face.
Seed‑OSS-36B — это новая линейка открытых больших языковых моделей (LLM), созданных для сложных рассуждений и удобства работы разработчиков. Главное их отличие — удлинённый контекст, то есть объём информации, который модель способна воспринять и обработать за один сеанс. Этот показатель превышает возможности многих конкурентов.
В коллекцию входят три основных варианта:
Seed‑OSS-36B‑Base с синтетическими данными;
Seed‑OSS-36B‑Base без синтетических данных;
Seed‑OSS-36B‑Instruct.
Выпустив сразу две версии базовой модели — с синтетическими данными и без них, команда Seed стремилась найти баланс между практической эффективностью и гибкостью для научных исследований.
Вариант с синтетическими данными, дополнительно обученный на инструкциях, стабильно показывает высокие результаты в стандартных тестах и задуман как более мощный универсальный инструмент.
Несинтетическая версия, напротив, лишена этих надстроек, образуя чистую основу, свободную от возможных искажений, которые иногда вносят искусственные данные.
Благодаря этому, пользователи получают и более сильный инструмент «на каждый день», и при этом исследователи сохраняют нейтральный фундамент для изучения методов дообучения.
Тем временем Seed‑OSS-36B‑Instruct выделяется тем, что прошёл дополнительное обучение на инструкциях, чтобы лучше выполнять конкретные задачи и следовать командам, а не быть лишь чистым фундаментом.
Все три модели выпущены
Читать на habr.com