找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 101|回复: 0

AI芯片科普:AI推理芯片和AI训练芯片的区别

[复制链接]
发表于 2025-11-12 15:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
什么是AI推理?

AI推理的本质是使用已经训练好的模型对新的、未见过的数据进行前向传播计算,从而得到预测结果。这个过程可以深度拆解为:

    计算模式的根本不同:与训练需要大量反向传播和梯度计算(涉及高精度FP32、FP64甚至更低精度格式)不同,推理的核心是前向传播。这意味着计算图是固定的,数据流是单向的。这允许硬件进行极致的优化,例如:

      算子融合:将多个连续的神经网络层(如Conv-BN-ReLU)融合为一个单一的、更高效的核函数,大幅减少对片外内存的访问,这是推理延迟和功耗的主要瓶颈。

      静态调度:由于计算图在部署前已知,编译器可以预先制定最优的执行计划,消除运行时动态调度的开销。

    精度要求的降低:训练需要高精度来保证梯度下降的稳定性和方向正确。而推理对数值精度要求宽松得多,INT8、INT4甚至是二值化(Binary/ Ternary)网络被广泛使用。降低精度带来两大核心优势:

      算力倍增:同一硬件下,INT8的算力(TOPS)通常是FP16的2倍,是FP32的4倍。

      内存带宽压力骤减:权重和激活值的数据量成倍减少,使得内存带宽不再是严重瓶颈,从而能更快地喂饱计算单元。

    工作负载的多样性:

      云端推理:高吞吐量、中等延迟。处理来自成千上万用户的海量请求,批处理是提高利用率的关键。芯片设计重点在于算力密度 和互联带宽。

      边缘推理:低延迟、低功耗。在摄像头、手机、汽车等设备上实时处理,对能效比的要求极高。芯片设计重点在于功耗效率 和片上内存容量。



AI芯片类型分类

就用途而言,AI芯片可以分为两大类:AI训练芯片和AI推理芯片。

就芯片架构而言,AI芯片可以分为两大类:GPU和ASIC。可以看我之前的文章《GPU和ASIC在AI上的优劣势比较》。

除了用途(训练/推理)和架构(GPU/ASIC)的分类,从计算架构上看,AI芯片可以分为:

    SIMT架构:以NVIDIA GPU为代表。单指令多线程,非常适合处理高度并行、同构的计算任务。其强大的可编程性和通用性是其统治训练市场的基石。

    DSA架构:以Google TPU为代表。领域专用架构,为特定的计算模式(如矩阵乘、卷积)定制硬件单元。其效率极高,但灵活性不如GPU。

    数据流架构:以Graphcore的IPU为代表。将整个计算图映射到芯片上,让数据在处理器之间流动,减少对全局内存的访问,非常适合图状计算模型。


AI训练芯片

AI训练市场

AI训练芯片市场,几乎没有几家竞争者,英伟达一家就占据了AI训练市场90%以上份额,其Blackwell架构支持1.8万亿参数模型训练,且NVLink 6技术实现72卡集群无缝互联。

华为和超微(AMD)则是英伟达之外,唯一在AI训练市场上有较大市占的厂商,但市占和英伟达是处于不同的量级,不能拿来比较。英特尔(Intel)的Gaudi,则在市场上几乎没有能见度,市占不到1%。

    AMD: MI300X在硬件指标上已接近甚至部分超越H100,但其ROCm 软件生态仍是追赶的关键短板。

    华为: 昇腾910芯片搭配CANN 软件栈,在国内市场依托政策导向形成替代方案,但在全球市场的软件生态和先进制程供应上面临挑战。

    英特尔: Gaudi 3 强调性价比,但在绝对性能和生态成熟度上仍与头部玩家有较大差距。


AI推理芯片主要是ASIC芯片

AI推理由于牵涉到各家厂商设计时的独特算法,必需定制化。而定制化芯片其实就是ASIC芯片,因此AI推理芯片主要是ASIC芯片。

AI推理芯片市场

根据VerifiedMarketResearch的数据显示,2023年AI推理芯片市场规模为158亿美元,预计到2030年将达到906亿美元,在2024-2030年预测期内的复合年增长率为22.6%。

ASIC的主要优势

适用于推理

前面提过:AI推理由于牵涉到各家厂商设计时的独特算法,必需定制化;才能发挥算法的效率和各家厂商独门的功能,以符合自家的特殊需求。

这种定制化的芯片必需ASIC芯片才能办到,这也是为何在大量采购通用型的GPU之外,各家厂商都需要自己另行开发属于自己的ASIC芯片,才能发挥自己所需要的AI推理的功能的原因。

去除弹性使速度加快

“固定性”是ASIC的核心优势——为单一任务定制硬件架构:可以直接将推理算法的运算逻辑、数据路径“固化”到芯片中,去掉所有无关的通用运算单元(如GPU中用于训练的动态调度模块、通用内存控制器),让硬件资源100%服务于推理计算。

成本效率

推理场景对“能源效率比”(每瓦功耗能提供的算力)和“成本”的敏感度远高于训练,而ASIC在这两方面具有碾压性优势。

能源效率比方面,Google TPU v5e的能源效率比是英伟达H100的3倍。

成本方面,AWS的Trainium 2在推理任务中性价比比H100高30%-40%,Google的TPUv5、亚马逊的Trainium2单位算力成本仅为英伟达H100的70%和60%。

一个大模型可能只需要几十到几百张训练芯片(如GPU),但推理阶段可能需要数万甚至数十万张芯片(例如ChatGPT的推理集群规模是训练集群的10倍以上)。因此ASIC的定制化设计可以降低单芯片的成本。

ASIC的主要缺点

芯片设计太耗时

ASIC的设计周期长达1-2年,而AI模型迭代速度极快(如大模型从GPT-3到GPT-4仅用1年)。若ASIC设计时锚定的模型过时(如Transformer取代CNN),芯片可能直接失效。

ASIC较不适用于AI训练

同理,ASIC在训练任务的能力就相对弱一点。因为训练任务算法迭代快,需求灵活。ASIC若用于训练,算法更新时,芯片面临失效风险,性价比低很多。

市场上主要的推理芯片

那些著名厂商开发了推理芯片?

几乎你所熟知的每一家世界知名的科技大厂,包括苹果(Apple)、亚马逊(Amazon)、谷歌(Alphabet/Google)、Meta、微软(Microsoft)、华为、腾讯、字节跳动、阿里巴巴、OpenAI,都已部署、正在部署、或是正在委托芯片设计商开发推理芯片。

多为代工设计

在ASIC市场上,各家AI大厂多为软件企业,不可能有大量的芯片设计人才,因此必须把芯片设计外包出去。

目前博通(Broadcom)以55%~60%的份额位居第一,迈威尔(Marvell)以13%~15%的份额位居第二。

已经完成部署的著名推理芯片

以下就是已经完成部署的著名推理芯片的列表,并不包括正在设计中的推理芯片。

公司名称

代表产品

架构

应用场景

谷歌(Google)

TPU V6等

ASIC

云端推理、训练

亚马逊(Amazon)

Inferentia、Trainium等

ASIC

推理芯片Inferentia、训练芯片Trainium

微软(Microsoft)

Maia 100等

ASIC

云端推理、训练

Meta

MTIA系列

ASIC

云端推理、训练

华为海思

昇腾910系列

ASIC

云端推理、训练

寒武纪

思元590等

ASIC

云端推理、训练

其它厂商

请注意:英伟达(NVIDIA)、超微(AMD)和英特尔(Intel)的AI芯片也能拿来用于推理,只是效果不像把他们拿来用于训练般地突出。

另外,还有一些小型的初创公司,包括SambaNova、Cerebras Systems、Graphcore、Groq、Tenstorrent、Hailo、Mythic,KAIST的C-Transformer等。也都推出了AI芯片也能拿来用于推理,但其实出货量都很小,不能和科技巨擘自行设计的AI推理芯片相比。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-11-12 21:02 , Processed in 0.095338 second(s), 26 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表