找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 232|回复: 0

AI运行的核心支撑“AI算力集群”,用了哪些关键技术?

[复制链接]
发表于 2025-8-9 10:52 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg

w2.jpg

说到AI,总绕不开一个核心支撑“AI算力集群”。驱动这个运行起来,离不开三样宝贝:算力(就是干活的能力)、算法(干活的思路)、数据(干活的经验)。而这AI算力集群,就是目前给AI提供“蛮力”最主要的源头。你可以把它想象成一个超级发电站,源源不断地给整个AI世界输送动力。

那这个“发电站”到底是怎么搭起来的?凭啥能提供那么大的劲?里面都有啥门道?用了哪些关键技术?

算力集群:AI的“动力引擎”

顾名思义,AI算力集群就是一堆专门为AI计算任务“卖力气”的设备组合。“集群”(Cluster)这个词,简单说就是一群各自能独立干活、但又能通过极快网络紧密协作的机器。

更直观点说,它通常是通过高速网络,把大量装着高性能计算芯片(比如GPU、TPU)的服务器连起来,形成一个能合力干大事的计算系统。

AI的核心计算无非就两件事:训练模型(相当于学习)和运行模型(相当于应用)。训练这活儿特别费劲,计算量巨大,对“力气”要求极高;相比之下,运行模型就轻松多了。

但不管哪一样,核心都是处理海量的矩阵运算(比如图片识别、语言理解背后的那些复杂计算)。这些计算有个特点:天生就能拆成小块,分头同时干。所以,像GPU、NPU、TPU这些特别擅长“多线程”并行的芯片,就成了AI计算的绝对主力,大家统称它们为AI芯片。

算力从哪里来?

AI芯片是提供算力的最小单元。但光有芯片可不行,它得安在电路板上才能工作。

小打小闹(端侧/边缘侧):把AI芯片塞进手机主板,或者直接集成到手机主处理器里,你的手机就有了AI能力(比如拍照优化、语音助手)。同理,塞进汽车、机器人、摄像头这些设备里,它们也能做点简单的AI推理(识别个物体、理解个指令)。这些地方的算力都比较“单薄”,主要处理些轻量级的推理任务。

升级装备(单机算力):想玩更复杂的训练任务(比如调教个小模型)?那就得找个能塞更多AI芯片的“地盘”。于是,人们把AI芯片做成专门的算力板卡,然后往一台普通服务器里使劲塞进多张这种卡,这就摇身一变成了AI服务器。说白了,AI服务器就是塞满AI加速卡的服务器。常见的是“一机八卡”,极限点能塞二十卡左右,但再塞多,散热和耗电就跟不上了。

这种服务器的算力就强多了,跑推理是小菜一碟,训练点不太复杂的模型也能勉强胜任。现在有些厂商瞅准机会,把几台这种AI服务器加上存储、电源等打包在一个机柜里,美其名曰“AI一体机”,主打的就是让企业能在自己机房部署像DeepSeek这样优化过、对算力要求相对友好的大模型,卖得挺火。

大兵团作战(集群算力):但是!面对真正“巨无霸”级别(参数动辄千亿、万亿)的大模型训练,单机或小集群的算力还是杯水车薪。怎么办?那就得搞真正大规模的AI算力集群了。现在常听到的“万卡集群”、“十万卡集群”,指的就是要动用成千上万块AI算力板卡(芯片)组成的超级系统。这规模,听着就吓人!

怎么堆出超级算力?

想拼出这么大集群,核心就两个招数:ScaleUp(向上扩展)和ScaleOut(向外扩展)。搞云计算的兄弟对这俩词肯定熟。

ScaleUp(向上堆):核心思想是把单个“节点”的能力做到极致。前面说的在单台服务器里拼命塞更多AI卡,就是典型的ScaleUp。这时候,一台塞满卡的服务器本身就是一个“节点”。ScaleUp追求的是节点内部芯片之间超高速、低延迟的连接。为啥这么重要?因为AI训练时芯片之间要疯狂交换数据,连接慢了就拖后腿。

内部高速通道的进化:以前靠PCIe协议连接,但这技术有点老了,速度跟不上需求。于是,显卡巨头英伟达就专门搞了个NVLINK协议,让GPU之间能像“点对点”聊天一样,速度远超PCIe,延迟也低得多。

后来,英伟达更进一步,把NVLink技术扩展到服务器之间,搞出了“超节点”的概念——多台服务器和网络设备通过超高带宽(比如NVLINK)连成一个紧密协作的大节点。

现在最新的NVLINK速度非常恐怖(比如BlackwellGPU带宽可达1800GB/s)。像英伟达的GB200NVL72液冷机柜,就把72个顶级GPU塞进去,提供惊人的训练和推理能力。

开放与封闭的较量:英伟达靠这套私有协议(NVLINK)和强大的GPU+CUDA生态占据了高地。但其他玩家(比如AMD搞UAlink,国内腾讯、阿里等推的ETH-X、OISA等标准)则在推动基于开放以太网(ETH)的ScaleUp方案,成本更低,更符合开放解耦的趋势。

国内巨头华为则走自己的路,用私有协议UB(UnifiedBus)打造了昇腾芯片生态,其CloudMatrix384超节点(384张昇腾910C卡)性能强悍,采用了复杂的多网络平面设计(UB、RDMA、VPC)。

英伟达最近也稍微松口(NVLinkFusion计划),但核心部分开放程度还有待观察。总之,ScaleUp领域现在是开放标准和私有协议并存竞争。

ScaleOut(向外扩):这个思路更“传统”些——靠数量取胜,把很多个节点(可以是单服务器,也可以是前面说的超节点)用高速网络连成一片。这其实就接近我们熟悉的“组网”概念了,比如数据中心常用的叶脊网络架构。但AI对网络要求极高,普通网络扛不住。

高速网络的顶梁柱:ScaleOut目前主要依赖两种基于RDMA(远程直接内存访问)的技术:

InfiniBand(IB):性能顶尖,低延迟、高带宽、负载均衡好。但问题是被英伟达收购后成了私有技术,贵!

RoCEv2:基于以太网的开放标准,融合了RDMA。性价比高,性能虽然比IB稍逊,但差距在缩小,是产业界对抗IB垄断的主力军。

ScaleUpvsScaleOut关键差异:

带宽和延迟:ScaleUp(超节点内部)能实现数百GPU间10Tbps级别的超高带宽和百纳秒级的超低延迟。ScaleOut(节点间)通常提供Tbps级别带宽和微秒级延迟(10微秒=10000纳秒),差了一个数量级。

分工协作:AI训练有多种并行方式。通信量小的(如流水线并行、数据并行)交给ScaleOut网络就行。通信量巨大、对延迟极其敏感的(如张量并行、专家并行),必须交给ScaleUp超节点内部的高速总线搞定。超节点还有个厉害功能:支持内存语义(GPU能直接读邻居的内存),这是ScaleOut做不到的。

部署运维:超节点(ScaleUp)内部高度集成,相当于预装好的“模块”,部署快、组网简单、后期运维也方便。超节点规模越大,需要ScaleOut连接的点就越少,整个大集群的复杂性就大大降低。当然,超节点也不能无限大,成本是硬约束,得按需设计。

未来趋势:

1.物理空间异地化:十万卡级别的集群,一个数据中心可能放不下,供电也是大问题。未来趋势是多个异地数据中心通过超高速、低延迟的光网络(DCI)连成一个逻辑上的大集群,协同训练大模型。这会推动空芯光纤等前沿传输技术发展。

2.节点架构深度定制化:光堆芯片数量不够了。集群架构需要深度适配大模型本身的结构(比如MoE专家混合模型),对计算、内存、存储资源进行智能池化和调度,实现“量体裁衣”的设计,效率才能最大化。

3.运维智能化:大模型训练动辄几周几个月,过程中崩溃是常事。提升集群可靠性和稳定性是刚需。未来会更多引入AI技术进行智能运维——预测性维护、自动故障诊断、亚健康部件提前更换,减少中断,等于变相提升了可用算力。

4.绿色节能化:AI是名副其实的“电老虎”。降低能耗、提高能效比、使用更多绿色能源(契合国家“东数西算”战略),是行业可持续发展的必然要求。

结语:

AI算力集群就是靠ScaleUp(把单节点做强)和ScaleOut(把多节点连广)这两招,把海量AI芯片组织起来,形成澎湃动力。技术路线上,开放标准与私有协议在博弈,性能与成本在权衡。未来,集群会朝着超大规模、深度优化、智能运维和绿色低碳的方向不断演进,持续为AI这艘大船提供更强劲、更可靠的引擎。



PS:相关报告请在知识星球:报告智库内搜索🔍“ 算力 ”即可下载,持续更新ing...


HOT相关报告推荐
w3.jpg

w4.jpg



w5.jpg


免责声明:『报告智库』重在分享,以上报告均系本平台通过公开、合法渠道获得,报告版权归原作者/发布机构所有,如涉侵权,请联系我们删除;
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-10-6 11:08 , Processed in 0.125511 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表