|
|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
作者:微信文章
(Salicylic: 原文在https://openrouter.ai/state-of-ai开放获取。另外,其实已经有人用更高级的工具链生成报告了100万亿Token背后的AI真相——OpenRouter 2025报告深度解读,我这里只是示意一下。)
这是一篇基于 OpenRouter State of AI Report 的深度分析报告。
2025 AI 生态演进报告:从模式生成到代理推理的范式转移
摘要 (Executive Summary)
本报告基于 OpenRouter 平台超过 100 万亿 token 的实证数据,分析了过去一年大语言模型(LLM)的真实使用图景。核心发现表明,AI 领域正经历从单一的「文本生成」向多步「代理推理(Agentic Inference)」的根本性范式转移。尽管专有模型(Proprietary Models)在高端任务中仍占据主导,但开源模型(Open-Weight Models),尤其是来自中国的模型,正在通过成本优势和特定领域的优化(如编程与角色扮演)迅速抢占市场份额。
1. 核心发现:技术与行为的双重变迁
1.1 「代理推理」的崛起 (The Rise of Agentic Inference)
数据表明,2024 年末 OpenAI o1 模型的发布是一个明显的拐点。
• 推理成为常态:经过强化学习优化的「推理模型」(Reasoning Models)处理的流量占比已超过 50%。• 交互模式的深化:用户的请求不再仅仅是简单的问答,而是表现为长上下文(Context)、多步骤规划和工具调用(Tool Use)。编程类任务的 Prompt 长度显著增加(平均超过 20k token),表明模型正被深度集成到复杂的开发工作流中,充当「分析引擎」而非单纯的「生成器」。
1.2 留存率的「灰姑娘效应」 (The “Glass Slipper” Effect)
用户留存不再单纯依赖模型的通用性能,而是呈现出一种 「首个解决问题者通吃」 的现象。
• 基础队列(Foundational Cohorts):当某个新模型(如 GPT-4o Mini 或 Claude 3.5 Sonnet)首次完美解决了用户的特定高价值痛点(即「穿上了水晶鞋」),该用户群体会形成极高的粘性。• 锁定机制:一旦工作流与特定模型的特性(延迟、推理风格、工具格式)对齐,即使用户面临更新、更便宜的模型,切换成本也会变得极高。这解释了为何先发优势在技术快速迭代的今天依然有效。
2. 现状分析:二元分化的生态系统
2.1 开源与闭源的动态平衡 (Open vs. Closed Source Dynamics)
市场正在形成清晰的二元结构,两者并非零和博弈,而是各司其职:
• 专有模型(Closed Source):如 OpenAI 和 Anthropic,依然定义着性能的上限,主要服务于企业级、高风险、对逻辑严密性要求极高的任务。它们占据了「高成本、高质量」的生态位。• 开源模型(Open-Source/OSS):使用量已占整体的三分之一。
• 中国力量的崛起:DeepSeek 和 Qwen (通义千问) 等中国模型家族表现强劲,不仅在中文语境下占优,更通过极快的迭代速度和高性价比,在全球编程辅助和创意写作领域占据了一席之地。• 中型模型的胜利:市场不再迷信超大参数量,15B-70B 参数量的「中型模型」因在性能与推理成本之间取得了最佳平衡(Model-Market Fit),正成为部署的主流。
2.2 真实使用场景的「双峰」分布
与公众普遍认为 AI 主要用于「生产力工具」的印象不同,数据揭示了两个截然不同的主导场景:
1. 硬核生产力(编程):编程辅助是增长最快、上下文最复杂的类别。开发者正利用 AI 进行代码生成、调试和架构设计,这推动了对长窗口和推理能力的巨大需求。2. 创意与情感(角色扮演):在开源模型的使用中,超过 50% 的流量流向了「角色扮演(Roleplay)」。这表明 AI 在提供情感陪伴、互动小说和创意激发方面具有巨大的、未被充分讨论的价值。开源模型的无审查特性使其在这一领域尤为活跃。
2.3 成本与地理分布
• 需求缺乏弹性:尽管价格战激烈,但在高端市场,价格下降并未带来线性的使用量暴增。企业更看重「任务成功率」而非「Token 单价」。• 全球化重心东移:亚洲地区的使用量占比从 13% 激增至 31%,显示出该地区在 AI 应用落地和模型开发上的双重活跃度。
3. 未来展望:从「聊天机器人」到「智能体生态」
3.1 评估标准的重构
随着「代理推理」成为主流,传统的基于文本相似度或单一问答准确率的 Benchmark 将失效。未来的评估将聚焦于任务完成率(Success Rate)、多步推理的鲁棒性以及工具调用的精确度。
3.2 多模型协作的常态化
未来的系统架构将不再依赖单一的「超级模型」。开发者将构建多模型编排系统:
• 使用轻量级、低成本的开源模型(如 DeepSeek, Llama)处理高频、简单的路由和预处理任务。• 调用昂贵的专有推理模型(如 o1, Claude 3.7)处理核心的逻辑攻坚。 这种异构架构将在成本和性能之间找到最优解。
3.3 模型的「商品化」与「去商品化」并存
低端推理能力将迅速商品化(Commoditized),价格趋近于零。但特定领域的「认知解决能力」(如解决复杂的生物化学分子结构预测或遗留代码重构)将保持高溢价。能够捕捉并解决这些「长尾高价值」问题的模型,将获得最持久的护城河。
结语: 2025 年标志着 AI 从「新奇玩具」向「基础设施」的转变完成。对于研究人员和开发者而言,关键不再是寻找「最强」的模型,而是识别能够与自身工作流完美契合(Fit)的模型组合,并利用代理工作流(Agentic Workflows)将 AI 的概率性输出转化为确定性的生产力。 |
|