OpenRouter выкатили огромное исследование: как реально используют LLM (анализ 100 трлн токенов)
В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, до ноября 2025 года).
Ключевые выводы 👇
Открытые модели стабильно держат около трети токенов. Особенно выросли китайские OSS (DeepSeek, Qwen, Kimi): с ~1–2% до до 30% трафика в отдельные недели, в среднем ~13%.
Маленьких моделей много, но их доля в использовании падает. Реальный рост — в medium-классе (15–70B): Qwen2.5 Coder 32B, Mistral Small 3, GPT-OSS 20B.
У открытых моделей: Roleplay ≈ 50%+ токенов: игровые сценарии, персонажи, фанфик-миры, «длинные» диалоги. Programming — второй по величине сегмент. Китайские OSS сдвинуты ещё сильнее в практику: у них roleplay уже не доминирует, а кодинг + технологии = ~39% нагрузки.
Reasoning-модели обслуживают уже >50% всех токенов. Растёт доля запросов с tool-calling, появляются модели заточенные «под агентность». Средний запрос стал длинным: prompt вырос ~с 1.5K до >6K токенов, completion почти утроился.
В начале 2025 года программирование ≈ 11%, в последние недели — уже больше половины трафика. Лидирует Claude: стабильно >60%. OpenAI вырос с ~2% до ~8%, Google удерживает ~15%. OSS (Qwen, Mistral, DeepSeek и др.) активно захватывают mid-tier, MiniMax растёт особенно быстро.
По континентам (share по токенам): Северная Америка: 47%, Азия: ~29% (было ~13%, стало ~31% в неделях под конец), Европа: ~21%. По языкам: английский ≈ 83%, далее упоминаются китайский, русский, испанский.
Дорогие модели вроде Claude Sonnet стоят около $2 за 1M токенов и всё равно получают огромные объёмы, дешёвые «рабочие лошадки» вроде Gemini Flash и DeepSeek V3 стоят меньше $0.4 и загружаются сопоставимо, ультрадорогие GPT-4/5 Pro по $30–35 используются для узких задач, а сверхдешёвые
Читать на habr.com