找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 132|回复: 0

AI算力增长5倍,阿里重构“超级AI云”

[复制链接]
发表于 2025-9-24 17:29 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章

w1.jpg


大模型将是下一代操作系统,超级AI云是下一代计算机

9月24日的2025云栖大会上阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭抛出了这一惊人的论断。他表示,大模型将允许任何人用自然语言创造无限多的软件应用,而这些软件应用将以Agent的形式存在。

这些判断,蕴含着阿里云走向超级人工智能ASI的战略目标。锚定这一智能革命,阿里云在云栖大会上重磅升级了全栈AI体系,实现从AI大模型到AI基础设施的技术更新,将自身定位升级为“全栈人工智能服务商”。本文将针对其中的AI基础设施升级进行全面解读。

w2.jpg




AI计算范式变革

AI大模型催生应用创新百花齐放,对底层的云计算基础设施却是一场严峻的压力测试。传统的云计算架构,在过去十年支撑了移动互联网和数字化的辉煌,但在大模型训练动辄需要万卡并行、Agent应用要求瞬时海量弹性的新范式面前,仍显得愈发力不从心

正所谓旧地图找不到新大陆”,行业已经形成共识:简单的“堆卡”无法构筑真正的AI竞争力,AI对基础设施的需求,绝非在传统云上“打补丁”所能满足根本性的计算范式变革将不可避免地发生

我们看到,在海外,英伟达与OpenAI已在联合发力AI基础设施集群;在国内,华为也在推进其“超节点+集群”的战略布局。

那么阿里云呢?吴泳铭指出,计算正从以CPU为核心,加速转向以GPU为核心的AI计算这预示着,场围绕AI原生需求的云计算“供给侧改革”并非零散的部件更新,而是一次从计算、网络、存储到容器的系统性重构,旨在回答一个核心问题:为AI时代而生的云,究竟该是什么样?




“通用”到“专用”:阿里云如何为AI重构三大件?

传统云计算的设计哲学是“通用”,追求普适性与规模成本效益。而AI云的设计哲学则是“专用”,一切为极致的AI性能服务。阿里云此次对计算、网络、存储“三大件”的重构,深刻体现了这一理念的转变。
    计算的重构密度与异构的革命


AI大模型训练是典型的高性能计算场景,对算力密度、散热能力和芯片兼容性提出了苛刻要求传统通用服务器机柜显然无法胜任。为此,阿里云发布了全新自研的磐久128超节点AI服务器

磐久服务器的核心突破在于“高密度”与“开放架构”:单柜可支持多达128颗AI计算芯片,密度刷新业界纪录同时,其开放架构能够高效支持产业内多种主流AI芯片这相当于从最底层的物理基础上,为AI超级计算机打造了一个坚固、高能且灵活的“机身”。


w5.jpg


    网络的重构带宽与延迟的突破

如果说磐久服务器是独立的计算核心,那么高性能网络就是连接万千核心协同工作的“中央神经系统”。在大规模分布式训练中,网络延迟和带宽直接决定了“木桶”的短板。阿里云新一代高性能网络HPN 8.0为此而生

HPN 8.0采用训推一体化架构,将GPU互联网络带宽提升至惊人的6.4Tbps并可支持单集群高达10万张GPU卡的高效互联这意味着,过去因网络瓶颈而难以实现的超大规模集群,如今能够像一台“单一逻辑计算机”般高效运转,网络彻底从“瓶颈”蜕变为“动脉”。
    存储的重构吞吐与智能的进化


AI工作负载对存储的需求是分裂且极致的。训练阶段,需要以极高速度“投喂”海量数据;而在应用阶段,以RAG为代表的技术则需要对海量的向量化数据进行高效存取阿里云的解法是分布式存储的“双管齐下”。

一方面,其高性能并行文件存储CPFS再度突破,单客户端吞吐提升至40GB/s并能提供百万级的IOPS以应对海量小文件处理这一业界难题彻底解决了训练数据的“进食”效率问题。

另一方面,对象存储OSS创新性地推出了Vector Bucket为向量数据提供高性价比的海量存储,相比自建开源向量数据库,成本骤降95%

样的创新,标志着存储不再只是一个被动的“仓库”,而是一个能理解多模态数据、为上层AI应用提供原生支持的“智能数据引擎”。




“稳态”到“敏态”:为Agent而生的云原生进化

如果说大模型训练是对基础设施极限性能的考验,那么Agent应用的爆发则考验着云的弹性和敏捷性。未来,数以亿计的Agent将作为人类的“数字员工”24小时不间断工作其算力需求呈现出“瞬时、海量、碎片化”的特征。这要求云平台必须具备前所未有的动态资源调度能力。阿里云容器服务ACK与ACS的重磅升级,正是对这一未来趋势的前瞻性布局

针对AI Agent场景的深度优化,阿里云Serverless GPU算力能开箱即用,并创下了每分钟拉起15000个沙箱的大规模并发弹性纪录同时,模型推理的冷启动速度提升了10倍,GPU故障发现及自愈效率提升了85%

有了这样的能力,无论是应对突发的推理请求,还是支撑大规模Agent协同工作,阿里云的云原生底座都能实现随需启用、高效响应。这不啻于为即将到来的Agent“洪水”,提前构建了一艘强健且灵活的“诺亚方舟”。




“黑盒”到“白盒”:全栈优化是终极护城河

AI时代,单纯提供IaaS层的硬件资源已远远不够,真正的壁垒在于软硬一体的全栈优化能力。如果说基础设施是“身体”,大模型是“大脑”,那么贯穿两者的人工智能平台就是实现身脑协同的“神经中枢”。

阿里云人工智能平台PAI与通义大模型的联合优化,将这种“1+1>2”的全栈协同效应体现得淋漓尽致通过对MoE模型训练采用统一调度、计算通信掩盖等一系列优化手段,PAI将通义千问模型的训练端到端加速比提升了3倍以上在推理层,通过全链路优化,推理吞吐TPS增加了71%,时延TPOT降低了70.6%

这些数据清晰地表明,阿里云正在全力打造一台同时拥有最领先模型和最领先基础设施的“AI超级计算机”,两者在设计和架构上可以高度协同,从而达到极致效率这种源自内部深度整合的优化能力,是任何外部厂商通过简单采购和拼装硬件所无法复制的,构成了阿里云最深的技术护城河。




结语:中国AI引领者已站在新起点

回顾2025云栖大会的发布,我们可以清晰地看到一条主线:阿里云并非在修补旧世界的地图,而是在绘制新世界的蓝图。它已经率先完成了从“让云适应AI”到“让AI定义云”的深刻变革。

阿里云的领先,不体现在单个组件的性能指标上,更体现在其构建“下一代计算机”的完整架构思考和全栈协同能力上。这一套被彻底重构的AI原生基础设施,为其自身的通义大模型家族提供了最强劲的动力,也为其服务中国百万级开发者和企业提供了最坚实的底气。

根据国际权威机构Omdia的报告,2025年上半年,阿里云在中国AI云市场的份额高达35.8%,超过了第二到第四名的总和在已采用生成式AI的财富中国500强企业中,超过53%选择了阿里云,渗透率位列第一

我们有理由预测,随着3年3800亿AI基础设施建设计划的推进这场由阿里云引领的基础设施革命,将进一步巩固其作为“中国AI引领者”的地位,并为整个行业的智能化进程注入更强大的确定性。

吴泳铭的预测——“未来全世界可能只会有5-6个超级云计算平台”,是否会成为现实呢?
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-9-25 05:35 , Processed in 0.112157 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表