找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 138|回复: 0

华为发布Flex:ai AI容器软件,算力提升30% 谷歌TPU和GPU的优缺点

[复制链接]
发表于 2025-11-23 08:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg

11月21日,华为发布Flex:ai AI容器软件,通过算力切分技术,将单张GPU/NPU算力卡切分为多份虚拟算力单元,切分粒度精准至10%,实现了单卡同时承载多个AI工作负载,并可聚合集群内各节点的空闲XPU算力聚合形成“共享算力池”,在无法充分利用整卡算力的AI工作负载场景下,算力资源平均利用率可提升30%。

华为这项新技术可对标英伟达2024年底收购的以色列公司Run:ai。Run:ai的核心产品是基于“Kubernetes”(开源容器编排平台)构建的软件平台。其可通过动态调度、池化和分片等手段优化GPU资源使用。例如,自动驾驶公司Wayve就借助Run:ai将GPU集群效率从不足25%提升到80%以上。华为的Flex:ai同样聚焦于通过软件创新实现对英伟达、昇腾等其他第三方算力的统一管理与调度,屏蔽底层硬件差异,为AI应用提供更高效稳定的资源支撑。

TPU和GPU的优缺点

TPU和GPU在AI推理中的表现各有优势,主要取决于具体的应用场景、工作负载特性和部署需求。

性能表现对比

TPU在AI推理中的优势

能效比显著领先:TPU在AI推理任务中展现出卓越的能效比,第七代Ironwood TPU相比初代TPU能效提升近30倍,每瓦性能比同期GPU高出2-3倍。谷歌TPU v5e在70B+参数模型上,相比同规模GPU集群能做到4-10倍的成本效率。

大规模推理优化:Ironwood TPU专为大规模AI推理设计,单芯片提供4614 TFLOPS算力,192GB HBM3e显存,7.2TB/s内存带宽,集群可扩展到9216个芯片,提供42.5 Exaflops总算力。

延迟性能突出:在谷歌内部测试中,搭载Ironwood TPU的环境运行Gemini 2.5的推理延迟降低67%,成本仅为前代方案的1/4。

GPU在AI推理中的优势

生态兼容性更强:GPU支持更广泛的软件框架,包括PyTorch、TensorFlow、JAX等几乎所有主流深度学习框架,而TPU主要深度绑定TensorFlow和JAX生态。

部署灵活性:GPU可在本地、混合云、多云环境中灵活部署,支持从边缘设备到数据中心的全面覆盖,而TPU主要通过Google Cloud服务提供。

通用性更好:GPU不仅支持AI推理,还能处理图形渲染、科学计算等多种任务,具有更好的多功能性。

具体应用场景表现

大规模语言模型推理

在LLM推理任务中,TPU表现出色。Ironwood TPU支持混合专家模型(MoE)的万亿级推理请求,能够实时处理大规模语言模型。相比之下,GPU在LLM推理中需要更大的显存容量,NVIDIA H100配备80GB显存,B200提供192GB/288GB显存选项。

推荐系统与稀疏计算

TPU的SparseCore引擎专门优化了推荐系统中的稀疏矩阵运算,Ironwood的第三代SparseCore在金融等高频交易加速性能提升5倍。

边缘推理

在边缘计算场景中,GPU如NVIDIA Jetson系列在功耗和成本上具有优势,而TPU主要通过云端服务提供。

成本效益分析

运营成本:根据摩根士丹利研究,NVIDIA GB200 NVL72平台在AI推理中实现77.6%的利润率,而谷歌TPU v6e pod利润率为74.9%。

总拥有成本:TPU在大规模部署时具有更好的成本效益,谷歌TPU v5e相比同规模GPU集群成本效率提升4-10倍。

技术发展趋势

精度优化:TPU在FP8精度下表现突出,Ironwood支持FP8混合精度,训练速度较BF16提升10倍。GPU也在低精度计算方面不断优化,NVIDIA Blackwell架构支持FP4精度。

架构创新:TPU采用脉动阵列架构,专门为矩阵运算优化,而GPU采用CUDA核心架构,提供更好的通用性。

选择建议

选择TPU的场景:

- 大规模分布式推理服务
- 对能效比要求极高的场景
- 主要使用TensorFlow/JAX框架
- 云端大规模部署

选择GPU的场景:

- 需要多框架支持
- 本地或混合云部署
- 需要处理非AI任务
- 边缘计算场景

混合策略:许多组织采用GPU进行原型开发和调试,然后使用TPU进行大规模生产部署,以最大化两种硬件的优势。

总体而言,TPU在能效比和大规模推理方面具有明显优势,而GPU在生态兼容性和部署灵活性方面更胜一筹。选择哪种方案应根据具体的应用需求、技术栈和成本预算来决定。

w2.jpg

谷歌TPU产业链各环节相关个股主要包括以下几大类别:

中际旭创(300308):谷歌800G光模块最大供应商,采购份额超60%,1.6T光模块适配谷歌2026年TPU扩张需求。双方合作已从40G产品升级到800G光模块,正在推进1.6T光模块认证。

新易盛(300502):首次进入谷歌供应链,800G光模块适配谷歌Ironwood边缘节点,是谷歌800G光模块的重要供应商之一。

天孚通信(300394):为谷歌OCS供应光纤准直器等关键组件,其800G光引擎也适配谷歌相关算力设备,被市场普遍认为是谷歌的光模块供应商。

光库科技(300620):谷歌OCS核心代工厂,代工份额在谷歌OCS供应链中占比超70%,薄膜铌酸锂调制器全球市占率超四成。通过子公司武汉捷普成为谷歌OCS交换机的独家代工厂商,单台价值量高达30,000美元。

腾景科技(688195):为谷歌OCS交换机供应光收发模组核心器件,环形器产品已送样谷歌,是谷歌OCS交换机的核心光学器件供应商。

赛微电子(300456):为谷歌OCS供应关键的微镜阵列晶圆,每台OCS含2个其供应的MEMS芯片,是其MEMS方案核心供应商。

深南电路(002916):谷歌TPU V7芯片高端PCB独家供应商,供应44层高端PCB板,技术验证已完成。TPU是谷歌AI算力的核心,类似于英伟达的GPU。

沪电股份(002463):谷歌TPU的核心PCB供应商,供货份额在A股中排名第一,占谷歌TPU供应商份额约30%,是谷歌的数据中心与AI服务器PCB供应商。

中富电路:谷歌TPU电源模块PCB核心供应商,2025年预计承接谷歌相关订单16亿元。

长芯博创(300548):子公司长芯盛是谷歌数据中心MPO连接器的核心供应商,占据谷歌全球采购量的25%-30%。博创科技正与芯片厂商Marvell合作,基于Marvell芯片的1.6T AEC产品已向谷歌送样。

太辰光(300570):直接为谷歌提供MPO等光纤连接器产品,受益于谷歌数据中心光模块及TPU相关需求。

长飞光纤(601869):谷歌的核心光纤供应商之一,占据其主要份额,谷歌已利用多芯光纤技术强化其海底电缆系统。

工业富联(601138):谷歌AI服务器的核心供应商之一,致力于为AI训练、云计算及边缘计算场景打造更高效能的硬件底座。同时是谷歌云服务器及存储设备的核心代工厂。

英维克(002837):液冷技术适配谷歌AI芯片高功耗需求,产品进入谷歌服务器供应链,发布基于谷歌Deschutes 5 CDU规格的2MW CDU产品。

博杰股份(002975):为谷歌的云服务器提供检测方案与检测设备,检测内容涉及GPU模组、服务器主板等电学检测,液冷零部件已通过谷歌等云厂商的验证。

欧陆通(300870):主营业务包括数据中心电源,在投资者问答中明确表示谷歌是其北美地区的客户之一。

科德教育(300192):直接持有中昊芯英约6.5%股权,参股国产TPU中昊芯英,TPU芯片已成功量产交付。

艾布鲁(301259):通过控股子公司间接持有中昊芯英约9.73%股权,为第二大股东。

浙数文化(600633):通过旗下基金间接参股中昊芯英。

浙大网新:通过投资平台间接持有中昊芯英股权。

#谷歌模型多项突破#
本周谷歌先后发布Gemini3Pro以及基于 Gemini 3 Pro基座上的图像生成模型Nano Banana Pro,核心影响在于:

1)直观感受效果大幅提升;
2) 不再是单纯的生图,而是多模态理解下的产出;
3)落地从单纯创意和素材能够更进一步到生产过程。

#26AI策略-国产算力产业化元年、多维度迭代出新

供给侧:国产AI芯片放量,从可用到好用,超节点展现国产工程能力。
需求侧:互联网、运营商智算中心需求旺盛。独树一帜:芯片、超节点、IDC多维度工程创新提升整体计算性能。

#26AI策略-中美大模型差距缩小、从性能提升迈向商业化落地

模型:2025年全球模型迭代速度整体放缓,中美差距迅速缩小;
预计在2026年将进一步缩小差距乃至在部分领域超越。
国产创新:训练范式不仅追求Scaling,且在性能、效率与成本间寻求更优平衡。
发展演绎:1)突破长上下文瓶颈;2)多模态,世界模型;3)Mid-training。
未来中国的AI范式为人机共驾,模型难以取代具备定制化特点的软件。

#26AI策略-多领域落地验证大模型价值、软件行业进入最佳布局窗口

趋势:模型迭代后获得了更优秀的长上下文的能力,为更深度的应用做好准备。

商业化:大量公司AI收入占比突破10%,软件行业迎来技术革新带来的“最佳击球点”。

看好Deep Research、AI编程、多模态、行业 Agent等方向。

#华为发布AI容器技术#Flex:ai对标英伟达 Run:ai

Al Infra关键突破:Flex:ai基于Kubernetes构建,可统一管理英伟达、昇腾等异构算力,使算力利用率提升 30%。

Flex:ai对标英伟达Run:ai 且兼容异构算力,后续将融入华为ModelEngine开源生态,将加速 AI 行业化落地。

免责声明:以上分析基于公开信息,仅做为个人复盘记录,不构成任何投资建议。市场有风险,投资需谨慎。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-11-24 07:40 , Processed in 0.114209 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表