多客科技 发表于 2024-5-10 05:25

什么是“AI处理器”?一文和你讲明白,为何轻薄笔记本上也能“玩AI”!

作者:雷科技
收藏「雷科技Lite」小程序,让你不再错过精彩内容



其实AI应用这个概念,并不算一个新概念了,早在上个世纪甚至几个世纪前,就有许多科学家提出了“机器学习”的概念,机器学习这一学科所研究的,就是如何让计算机来模拟或实现人类的学习行为,也就是所谓的人工智能。

到了2006年左右,“深度学习”的概念被提出,为人类创造出真正的“人工智能”指明了道路,从此各类神经网络模型逐渐演化。



又经过了十多年的发展,直到2017年,Google的研究人员提出了Transformer模型。虽在当时,并未马上引起轩然大波。但时至今日,文言一心、通义千问、Stable Diffusion 3这些基于Transformer的AI应用问世,让人类相信,我们离真正的“人工智能”,好像很接近了!



我曾认真的看过Transformer模型的架构、原理,除了惊叹整个模型的绝妙,也是细思极恐,这不就是我们人类神经元的运作方式么?甚至让我感觉,机器离真正模拟人类大脑,仿佛只有一步之遥。



AI能力的涌现是突如其来,AI应用这一名词,也在2023年井喷式的进入大众视野。大语言模型、AIGC、AI处理器这些词语,也相继而来。

也许对AI应用有一些了解的朋友们都知道,想要“玩AI”,首先要有一块顶级显卡,因为运行AI应用要靠顶级显卡的算力才行。但你知道,AI应用的本质是什么吗?为什么AI应用要靠显卡呢?

2024年,Intel、AMD等厂商也相继提出了AI处理器这一概念,号称只需一颗处理器,不用独显就能跑AI应用,这是真的么?



有的人可能不信,觉着我用RTX4090显卡跑大模型都费劲,一颗处理器咋就能跑的动?结论别下的太早,我来给大家讲一下,今年的“AI处理器”,到底是怎么一回事。

处理器“运算”的本质



要说清楚AI处理器,边要先从处理器计算的本质说起,我这里指的处理器包括CPU和GPU。大家都知道CPU适合顺序处理复杂任务,GPU则适合并行计算密集型任务,但什么是适合CPU处理的复杂任务?什么是适合GPU处理的密集型任务呢?

目前PC端的CPU,基本是采用x86与ARM两类指令集,x86指令集比ARM指令集更复杂,但不管哪一个,都远比GPU的指令集要复杂许多。复杂指令集能够带来更通用的计算能力,但在进行一些特定需求时,反而会被拖累。

更简单的讲,GPU的主要任务其实很简单,就是进行“浮点运算”,更具体的讲,最主要的是单精度浮点运算(FP32)。虽然现在的GPU也会加入光追单元等各类其他功能单元,但说到底,单精度浮点运算的速度,才最能体现GPU的性能水平。

我们拿消费级市场的顶级显卡RTX4090举例,下图是它的内核架构图片。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgXPQ9UX7OK3QviaQYtQeqddDOH2UdKSSOc8vX65454T8e6lW16EHotUg/640?wx_fmt=png&from=appmsg

图片来自网络

可以看出,RTX4090的内核里,最多的就是FP32计算单元,还有一些INT32单元(单精度整数运算单元),这正是因为在GPU中,这两种计算是最多的。

不管是图形渲染、视频编码、机器学习、数据挖掘等,用的最多的也都是这两类运算,这些正是GPU的主要工作范畴。

什么是“AI应用”



AI应用能够囊括的应用类型其实很多,像AI抠图、AI生图、AI智能助手、补帧、超分辨率等等,都可以算是AI应用,但为什么它们会被称为AI应用呢?

其实它们被称为AI应用,最大的原因,便是它们多数是基于深度学习的计算机视觉、自然语言处理等技术。

我们再来继续剖析一下更底层的本质,这类深度学习运算的又具体是什么运算呢?

答案是:低精度运算

至此,我们已经知道,为什么如今主流的AI应用,需要用到GPU了。GPU的FP32单精度浮点运算能力,正好可用于深度学习运算。



但其实,GPU的FP32计算能力来进行深度学习运算,依然算是“大学生做小学数学题”。现在的许多AI应用,其实需要的运算精度更低,像现在AI绘图领域最火的Stablediffusion,本身就是从噪点中还原图像,图像有很高的随机性,所以不需要高运算精度。使用FP16(半精度浮点运算)模型,效果和是用FP32(全精度浮点运算)模型几乎没有区别,但速度和显存占用却又显著提升。甚至可以通过采用FP8(低精度浮点运算),进一步提升出图速度,效果下降依然没有很明显。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgEcazePMIAvNOUyGapU91EOyrJ6cicbJZxgcj3UkUUOS6JvmKwK6aZAA/640?wx_fmt=png&from=appmsg

图片来自外网

在辅助驾驶领域,需要更快的运算速度,迅速处理大量传感器数据,并迅速做出反应。所以广泛采用了精度同样比较低的INT8量化,INT8量化的方式,使得运算功耗、速度都有显著提升。

什么是“NPU”



NPU又叫神经处理器,也不是一个新名词了,现在的智能手机SOC,就统统搭载了NPU。

NPU的概念其实特别广泛,任何进行神经网络运算的处理器,都可以称为NPU,但目前主要的行业应用里,神经网络运算主要指代的就是FP16、INT8等运算方式。

刚刚我们讲到,在普通的PC中,这类运算仍然是用显卡进行,采用FP32或者INT32计算单元运算,这仍然有一些浪费。那如果有一个指令更简单、运算精度更弱,但能效比却更高的处理器,专门来做这些运算,岂不是更合适?这个处理器便是NPU。

所以,NPU说到底,就是一个能够专用于低精度运算,适合神经网络运算的处理器。它的特点就是能进行大规模并行运算、功耗更低、功能更专注。

什么是“AI 处理器”



前面铺垫了这么多,就是为了要解释“AI处理器”到底是什么。AI处理器,其实就是拥有专用于处理神经网络计算的NPU单元的处理器,独立的NPU单元,专门用来运行AI应用。使得即使没有高性能的独立显卡,也可以让AI应用流畅运行。



千万不要觉着NPU没用,AI技术的发展真的是太迅速了,未来各类软件全面拥抱AI,是早晚的事。你必须要有一个低功耗且运算能力足够的NPU,才能能够在电脑里,随时呼叫本地部署的AI语音助手,在本地搭建AI生图应用,对视频实时进行高质量补帧、超分等。虽然缺少NPU,这些事也可能靠显卡做到,但付出的功耗,却成倍增加。      

像AMD最新推出的锐龙8000系列处理器,便在一颗处理器中,整合了NPU、CPU、GPU,被AMD称为第二代AI PC处理器。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgNnryibDjHCbaFysoAyArQibVsyicSJTibfnzLb1E0XezcpeBRc3bRFPGtQ/640?wx_fmt=png&from=appmsg

相比AMD 锐龙7040系列的第一代AI PC处理器,NPU部分完全独立,采用XDNA计算架构,拥有16TOPS的算力,加上GPU、CPU部分的AI总算力至高可达到39TOPS。

虽然两者的算力的只是理论上相同,并不能完全划等号(稍后会为大家解释为什么不能划等号),但完全可以说,在特定的一些AI应用上,仅凭AMD 锐龙8000系列处理器、无需独显就完全可以胜任了!
可以说,NPU部分就是今年AMD 锐龙8000系列最大的升级,并且这个看似并不直接影响CPU核心性能的升级,却是引领性、颠覆性的,以后不管是Intel还是AMD抑或是其它品牌处理器,NPU单元都是不可或缺。
https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgkGgV1gFgAwZ0pFUNvTKS2EtWJE4nkuDC72eMkohuxibCDibxVSibwmWxg/640?wx_fmt=png&from=appmsg

除了NPU部分,AMD 锐龙8000系列在其它方面也有一些升级。拿去年热度很高的AMD 锐龙7 7840H移动处理器,与今年的升级型号,锐龙7 8845H移动处理器对比,GPU部分的AI算力也从10TOPS提升到了16TOPS。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgf50GAKMX1ph7jxzf3jQX3QT9CRLyHj6bIShtBQOF77IxQoCiaAdw07Q/640?wx_fmt=png&from=appmsg

整体来说,AMD 锐龙8000系列的各个型号,在同级别处理器里,各方面都是处于领先地位。Zen4架构的性能仍然强劲,TSMC 4nm FinFET制程工艺能效比依然出类拔萃,Radeon 780M仍是移动端最强核显。

“AI应用”生态如何?



AI在2023年的爆发,不仅是我们,包括学术界、一线科技公司,其实都没有很好的预料到。这和大模型能力的“涌现”现象有关,本身这件事就是有点难以预料、无法解释的。但不得不说,英伟达在机器学习方面,看的足够远,早早的就推出了CUDA并行运算平台,以至于现在许多基于神经网络运算的“AI应用”,都是基于CUDA指令集架构的。

就像是ARM与x86的区别一样,不同的指令集架构,无法直接兼容,CUDA的应用生态,也无法直接迁移到其它平台上,那怎么办呢?

不同的系统,一定要有自己的生态,才能够长期发展。这里也不得不佩服AMD后来者居上的勇气和魄力。AMD在率先带来CPU+GPU+NPU三合一处理器之外,也推出了Ryzen AI引擎,供开发者们更好的利用AMD AI处理器中的XDNA架构。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgY9mpR4SJblgQ1Khwa2YLovvgCdh5jtlPFz3jvuOoGSoU5fsWVmNOQA/640?wx_fmt=png&from=appmsg

通过Ryzen AI软件,可以让开发者能够通过PyTorch、TensorFlow和ONNX训练或开发模型,利用AMD Vitis™ AI 量化器将模型保存为ONNX格式,并最终部署在AMD的AI硬件上,实现高能效比的运行。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgOFxUVUibuzahfZbwkscfNSYo8Wgeq6hZKN5cwAKAI5qjYgoVGclmoyg/640?wx_fmt=png&from=appmsg

总的来说,就是开发者开发XDNA架构的AI应用更简单、更标准化了!

对于已经在CUDA平台上设计的AI应用,也可以通过“ZLUDA”开源项目等方法,运行在AMD的GPU上,AI应用的生态是在迅速完善的,很快就可以把处理器的全部能力释放出来。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgToarU1icnqTqbBYpyibAPh6ofxRJRZX3waNmUUVJo7vPv5GAJuKeGXicQ/640?wx_fmt=png&from=appmsg

2024年“AI笔记本”怎么选?



很多人其实对TOPS这个单位没有概念,但没有概念的原因并不在于你不了解,而是TOPS在不同的情况下,不能进行类比。

1TOPS代表处理器每秒钟可进行一万亿次(10^12)操作,但TOPS这个单位,并未说清楚,所做的操作是何种操作。任务复杂程度不同,消耗的时间与算力,当然也是不同的了。

在汽车处理器领域,TOPS指代的一般是INT8运算次数,在专业显卡领域,TOPS指代的一般是FP32或FP64。而在AI处理器上,TOPS则代表的是FP16运算的次数。

所以大家不要觉着汽车处理器的几百上千TOPS特别牛,也别以为专业显卡几十的TOPS不够强了,运算单位完全不同的。

那AMD 锐龙8000系列最高39TOPS(FP16),是什么水平呢?

首先,这个数值超越了一并友商,在消费级处理器里,属于领先水平。

如果是和独立显卡对比,根据techpowerup的数据,RTX4070Ti的FP16运算水平,也才只有40.09TOPS,理论上和AMD 锐龙8000系列的FP16算力在同一水平。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSg0j5UyMo0mWbRp83CxbAjJDViaDg638seNvlQlee1yZbAwVoN2S0kWdQ/640?wx_fmt=png&from=appmsg

图片来自网络

更得益于Ryzen AI引擎的配合,以及与AMD独显相同的RDNA 3 GPU架构,AMD Ryzen AI处理器的生态也有足够保障,相信很快,Ryzen AI应用的生态就能构建起来,电脑里的AI处理器也能够真正发挥作用了。

所以2024年的“AI PC”并不是一个伪概念,而是真正能为实际使用带来改变的,且这种改变并不是一般的性能提升改变,更多的是电脑的交互方式、使用体验的改变。

AMD 锐龙8000系列在AI方面带来这么大的升级,但搭载这款处理器的笔记本产品的价格,却没有大幅上涨,可以算是加量不加价了。并且AMD锐龙8000系列移动处理器全系都搭载了Ryzen AI引擎,只要认准锐龙8000系列买就没有错。

如果大家需要购买2024款的“AI笔记本”,我根据对笔电的了解及经验,为大家推荐以下几款产品。当然了,大家其实也可以根据自己喜欢的品牌,选择2024年的锐龙8000系列升级款。
1、联想 小新Pro 2024 AI超能本

点击下方小程序进行购买
页: [1]
查看完整版本: 什么是“AI处理器”?一文和你讲明白,为何轻薄笔记本上也能“玩AI”!