找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 544|回复: 0

跟踪 | 华为 AI CloudMatrix 384

[复制链接]
发表于 2025-4-16 10:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
最近公众号改变了规则,推送不按时间顺序,如果不想错过《思维纪要社》的文章,请设“星标”并且经常点击“在看”,感谢大家支持!

所有内容都来自于网络,如有侵权,请联系后台删除,感谢理解核心速览

这篇文章详细介绍了华为AI云矩阵384的技术规格、系统架构及其与英伟达GB200 NVL72的对比分析。以下是文章的主要内容:
华为AI云矩阵384的技术规格

1. 芯片和封装


    Ascend 910C芯片:华为的Ascend 910C芯片由384颗芯片通过全互联拓扑连接而成,弥补了单个GPU性能仅为Nvidia Blackwell三分之一的事实。

    HBM容量和带宽:Ascend 910C的HBM容量为128GB,HBM带宽为3.2TB/s,均低于Nvidia GB200 NVL72的192GB和8.0TB/s。
2. 系统级性能


    BF16密集PFLOPS:Ascend 910C的BF16密集PFLOPS为300,低于GB200 NVL72的180。

    HBM容量和带宽:Ascend 910C的HBM容量为49.2TB,HBM带宽为1,229TB/s,均高于GB200 NVL72的13.8TB和576TB/s。

    扩展带宽:Ascend 910C的扩展带宽为134,400Gb/s,高于GB200 NVL72的64,800Gb/s。

    系统总功耗:Ascend 910C的系统总功耗为559,378W,远高于GB200 NVL72的145,000W。
华为AI云矩阵384的系统架构

1. 纵向扩展网络


    NVLink网络:华为采用7个400G光模块提供2,800Gbit/s的纵向扩展带宽,高于GB200 NVL72的7,200Gbit/s。

    交换机架构:采用单层网络将所有GPU互联,接入4台CloudEngine 16800模块化交换机。
2. 横向扩展网络


    8轨优化拓扑:每个横向扩展的CloudEngine模块化交换机拥有768个400G端口,连接384个GPU。

    叶层和脊层交换机:叶层需要1个叶交换机加0.5个脊交换机,脊层需要384个400G交换机。
3. 光模块技术

    LPO光模块:华为采用线性可插拔光模块(LPO)以减少功耗,LPO光模块无需内部数字信号处理器(DSP),降低功耗30%以上。
中国在AI基础设施上的优势与挑战

1. 电力资源


    电力供应充足:中国电力资源丰富,能够满足大规模数据中心的需求,电力成本相对较低。

    能源优势:中国的能源优势将助力其数据中心在规模和速度上快速扩张。
2. 芯片制造


    依赖进口:尽管中国正在努力提升本土半导体供应链能力,但仍高度依赖国外生产,如台积电的晶圆和三星的HBM。

    制裁与规避:华为通过第三方公司规避了对台积电的制裁,但仍面临其他技术和材料的出口限制。
未来展望

1. 本土晶圆厂的扩产


    中芯国际和长鑫存储:这两家公司已获得大量设备和资金支持,有望在未来提升产能和良率。

    潜在的产能增长:若HBM、晶圆制造设备、设备维护及光刻胶等材料得到有效管控,中芯国际的产能仍有巨大增长空间。
2. 持续扩展的可能性


    系统级优化:华为解决方案仍有多种持续扩展的路径,包括优化系统级功耗预算和采用更高效的散热技术。

    国际合作:尽管面临制裁,华为仍可以通过国际合作和技术引进,进一步提升其AI基础设施的性能和竞争力。

关键问题及回答

问题1:华为AI云矩阵384在纵向扩展网络中是如何实现高带宽的?

华为AI云矩阵384在纵向扩展网络中采用了7个400G光模块,每颗GPU配置7个400G光模块,提供2,800Gbit/s的单向纵向扩展带宽。这种设计虽然成本更高、功耗更大,但可以确保高带宽的连接。相比之下,英伟达GB200 NVL72每GPU提供7,200Gbit/s的带宽,但通过更紧凑的直连铜缆实现。

问题2:华为在应对出口管制方面采取了哪些措施?

华为通过多种方式应对出口管制,包括通过第三方公司购买设备和材料。例如,华为通过Sophgo公司购买了约5亿美元的7nm晶圆,成功绕过了针对台积电的制裁。此外,华为还通过CoAsia Electronics公司重新出口被禁止的HBM,尽管这种做法在法律边缘,但显示了华为在技术获取方面的灵活性和创新能力。

问题3:华为AI云矩阵384的系统级功耗为何显著高于英伟达GB200 NVL72?

华为AI云矩阵384的系统级功耗显著高于英伟达GB200 NVL72,主要原因在于其采用了大量的光模块和复杂的网络架构。具体来说,CloudMatrix 384每个pod包含6,912个400G光模块,用于纵向和横向扩展网络。此外,其纵向扩展网络使用了大量的400G收发器,导致功耗显著增加。尽管每颗GPU的功耗相对较低,但整体系统的功耗却因高带宽和复杂的网络设计而显著上升。

关联信息补充

人物

Patrick Zhou:Patrick Zhou 是华为团队的一员,参与了华为AI云矩阵384的研发工作。他所在的团队致力于通过系统级的创新,推动AI系统性能的提升,以应对全球市场的竞争。
组织机构:

华为:华为是一家全球领先的科技公司,专注于通信设备和智能终端的研发。在AI领域,华为推出了CloudMatrix 384系统,旨在通过系统级的创新,提供强大的AI计算能力,以应对出口管制和国内芯片良率的挑战。

英伟达:英伟达是全球知名的GPU制造商,其GB200 NVL72系统在AI计算领域具有竞争力。英伟达通过其创新的NVLink技术和高性能计算平台,保持了在AI基础设施领域的领先地位。

--

w1.jpg

在AI的时代,希望能对大佬们有所帮助

详细纪要、外资研报、国内外音频还请加入知识星球查看
具体优势,请点击《纪要星球介绍》

w2.jpg

w3.jpg
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-8-2 18:25 , Processed in 0.102231 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表