【什么是“AI处理器”?一文和你讲明白,为何轻薄笔记本上也能“玩AI”!】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2024-5-10 05:25

什么是“AI处理器”?一文和你讲明白,为何轻薄笔记本上也能“玩AI”!

作者：雷科技
收藏「雷科技Lite」小程序，让你不再错过精彩内容

其实AI应用这个概念，并不算一个新概念了，早在上个世纪甚至几个世纪前，就有许多科学家提出了“机器学习”的概念，机器学习这一学科所研究的，就是如何让计算机来模拟或实现人类的学习行为，也就是所谓的人工智能。

到了2006年左右，“深度学习”的概念被提出，为人类创造出真正的“人工智能”指明了道路，从此各类神经网络模型逐渐演化。

又经过了十多年的发展，直到2017年，Google的研究人员提出了Transformer模型。虽在当时，并未马上引起轩然大波。但时至今日，文言一心、通义千问、Stable Diffusion 3这些基于Transformer的AI应用问世，让人类相信，我们离真正的“人工智能”，好像很接近了！

我曾认真的看过Transformer模型的架构、原理，除了惊叹整个模型的绝妙，也是细思极恐，这不就是我们人类神经元的运作方式么？甚至让我感觉，机器离真正模拟人类大脑，仿佛只有一步之遥。

AI能力的涌现是突如其来，AI应用这一名词，也在2023年井喷式的进入大众视野。大语言模型、AIGC、AI处理器这些词语，也相继而来。

也许对AI应用有一些了解的朋友们都知道，想要“玩AI”，首先要有一块顶级显卡，因为运行AI应用要靠顶级显卡的算力才行。但你知道，AI应用的本质是什么吗？为什么AI应用要靠显卡呢？

2024年，Intel、AMD等厂商也相继提出了AI处理器这一概念，号称只需一颗处理器，不用独显就能跑AI应用，这是真的么？

有的人可能不信，觉着我用RTX4090显卡跑大模型都费劲，一颗处理器咋就能跑的动？结论别下的太早，我来给大家讲一下，今年的“AI处理器”，到底是怎么一回事。

处理器“运算”的本质

要说清楚AI处理器，边要先从处理器计算的本质说起，我这里指的处理器包括CPU和GPU。大家都知道CPU适合顺序处理复杂任务，GPU则适合并行计算密集型任务，但什么是适合CPU处理的复杂任务？什么是适合GPU处理的密集型任务呢？

目前PC端的CPU，基本是采用x86与ARM两类指令集，x86指令集比ARM指令集更复杂，但不管哪一个，都远比GPU的指令集要复杂许多。复杂指令集能够带来更通用的计算能力，但在进行一些特定需求时，反而会被拖累。

更简单的讲，GPU的主要任务其实很简单，就是进行“浮点运算”，更具体的讲，最主要的是单精度浮点运算（FP32）。虽然现在的GPU也会加入光追单元等各类其他功能单元，但说到底，单精度浮点运算的速度，才最能体现GPU的性能水平。

我们拿消费级市场的顶级显卡RTX4090举例，下图是它的内核架构图片。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgXPQ9UX7OK3QviaQYtQeqddDOH2UdKSSOc8vX65454T8e6lW16EHotUg/640?wx_fmt=png&from=appmsg

图片来自网络

可以看出，RTX4090的内核里，最多的就是FP32计算单元，还有一些INT32单元（单精度整数运算单元），这正是因为在GPU中，这两种计算是最多的。

不管是图形渲染、视频编码、机器学习、数据挖掘等，用的最多的也都是这两类运算，这些正是GPU的主要工作范畴。

什么是“AI应用”

AI应用能够囊括的应用类型其实很多，像AI抠图、AI生图、AI智能助手、补帧、超分辨率等等，都可以算是AI应用，但为什么它们会被称为AI应用呢？

其实它们被称为AI应用，最大的原因，便是它们多数是基于深度学习的计算机视觉、自然语言处理等技术。

我们再来继续剖析一下更底层的本质，这类深度学习运算的又具体是什么运算呢？

答案是：低精度运算

至此，我们已经知道，为什么如今主流的AI应用，需要用到GPU了。GPU的FP32单精度浮点运算能力，正好可用于深度学习运算。

但其实，GPU的FP32计算能力来进行深度学习运算，依然算是“大学生做小学数学题”。现在的许多AI应用，其实需要的运算精度更低，像现在AI绘图领域最火的Stablediffusion，本身就是从噪点中还原图像，图像有很高的随机性，所以不需要高运算精度。使用FP16（半精度浮点运算）模型，效果和是用FP32（全精度浮点运算）模型几乎没有区别，但速度和显存占用却又显著提升。甚至可以通过采用FP8（低精度浮点运算），进一步提升出图速度，效果下降依然没有很明显。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgEcazePMIAvNOUyGapU91EOyrJ6cicbJZxgcj3UkUUOS6JvmKwK6aZAA/640?wx_fmt=png&from=appmsg

图片来自外网

在辅助驾驶领域，需要更快的运算速度，迅速处理大量传感器数据，并迅速做出反应。所以广泛采用了精度同样比较低的INT8量化，INT8量化的方式，使得运算功耗、速度都有显著提升。

什么是“NPU”

NPU又叫神经处理器，也不是一个新名词了，现在的智能手机SOC，就统统搭载了NPU。

NPU的概念其实特别广泛，任何进行神经网络运算的处理器，都可以称为NPU，但目前主要的行业应用里，神经网络运算主要指代的就是FP16、INT8等运算方式。

刚刚我们讲到，在普通的PC中，这类运算仍然是用显卡进行，采用FP32或者INT32计算单元运算，这仍然有一些浪费。那如果有一个指令更简单、运算精度更弱，但能效比却更高的处理器，专门来做这些运算，岂不是更合适？这个处理器便是NPU。

所以，NPU说到底，就是一个能够专用于低精度运算，适合神经网络运算的处理器。它的特点就是能进行大规模并行运算、功耗更低、功能更专注。

什么是“AI 处理器”

前面铺垫了这么多，就是为了要解释“AI处理器”到底是什么。AI处理器，其实就是拥有专用于处理神经网络计算的NPU单元的处理器，独立的NPU单元，专门用来运行AI应用。使得即使没有高性能的独立显卡，也可以让AI应用流畅运行。

千万不要觉着NPU没用，AI技术的发展真的是太迅速了，未来各类软件全面拥抱AI，是早晚的事。你必须要有一个低功耗且运算能力足够的NPU，才能能够在电脑里，随时呼叫本地部署的AI语音助手，在本地搭建AI生图应用，对视频实时进行高质量补帧、超分等。虽然缺少NPU，这些事也可能靠显卡做到，但付出的功耗，却成倍增加。

像AMD最新推出的锐龙8000系列处理器，便在一颗处理器中，整合了NPU、CPU、GPU，被AMD称为第二代AI PC处理器。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgNnryibDjHCbaFysoAyArQibVsyicSJTibfnzLb1E0XezcpeBRc3bRFPGtQ/640?wx_fmt=png&from=appmsg

相比AMD 锐龙7040系列的第一代AI PC处理器，NPU部分完全独立，采用XDNA计算架构，拥有16TOPS的算力，加上GPU、CPU部分的AI总算力至高可达到39TOPS。

虽然两者的算力的只是理论上相同，并不能完全划等号（稍后会为大家解释为什么不能划等号），但完全可以说，在特定的一些AI应用上，仅凭AMD 锐龙8000系列处理器、无需独显就完全可以胜任了！
可以说，NPU部分就是今年AMD 锐龙8000系列最大的升级，并且这个看似并不直接影响CPU核心性能的升级，却是引领性、颠覆性的，以后不管是Intel还是AMD抑或是其它品牌处理器，NPU单元都是不可或缺。
https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgkGgV1gFgAwZ0pFUNvTKS2EtWJE4nkuDC72eMkohuxibCDibxVSibwmWxg/640?wx_fmt=png&from=appmsg

除了NPU部分，AMD 锐龙8000系列在其它方面也有一些升级。拿去年热度很高的AMD 锐龙7 7840H移动处理器，与今年的升级型号，锐龙7 8845H移动处理器对比，GPU部分的AI算力也从10TOPS提升到了16TOPS。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgf50GAKMX1ph7jxzf3jQX3QT9CRLyHj6bIShtBQOF77IxQoCiaAdw07Q/640?wx_fmt=png&from=appmsg

整体来说，AMD 锐龙8000系列的各个型号，在同级别处理器里，各方面都是处于领先地位。Zen4架构的性能仍然强劲，TSMC 4nm FinFET制程工艺能效比依然出类拔萃，Radeon 780M仍是移动端最强核显。

“AI应用”生态如何？

AI在2023年的爆发，不仅是我们，包括学术界、一线科技公司，其实都没有很好的预料到。这和大模型能力的“涌现”现象有关，本身这件事就是有点难以预料、无法解释的。但不得不说，英伟达在机器学习方面，看的足够远，早早的就推出了CUDA并行运算平台，以至于现在许多基于神经网络运算的“AI应用”，都是基于CUDA指令集架构的。

就像是ARM与x86的区别一样，不同的指令集架构，无法直接兼容，CUDA的应用生态，也无法直接迁移到其它平台上，那怎么办呢？

不同的系统，一定要有自己的生态，才能够长期发展。这里也不得不佩服AMD后来者居上的勇气和魄力。AMD在率先带来CPU+GPU+NPU三合一处理器之外，也推出了Ryzen AI引擎，供开发者们更好的利用AMD AI处理器中的XDNA架构。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgY9mpR4SJblgQ1Khwa2YLovvgCdh5jtlPFz3jvuOoGSoU5fsWVmNOQA/640?wx_fmt=png&from=appmsg

通过Ryzen AI软件，可以让开发者能够通过PyTorch、TensorFlow和ONNX训练或开发模型，利用AMD Vitis™ AI 量化器将模型保存为ONNX格式，并最终部署在AMD的AI硬件上，实现高能效比的运行。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgOFxUVUibuzahfZbwkscfNSYo8Wgeq6hZKN5cwAKAI5qjYgoVGclmoyg/640?wx_fmt=png&from=appmsg

总的来说，就是开发者开发XDNA架构的AI应用更简单、更标准化了！

对于已经在CUDA平台上设计的AI应用，也可以通过“ZLUDA”开源项目等方法，运行在AMD的GPU上，AI应用的生态是在迅速完善的，很快就可以把处理器的全部能力释放出来。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSgToarU1icnqTqbBYpyibAPh6ofxRJRZX3waNmUUVJo7vPv5GAJuKeGXicQ/640?wx_fmt=png&from=appmsg

2024年“AI笔记本”怎么选？

很多人其实对TOPS这个单位没有概念，但没有概念的原因并不在于你不了解，而是TOPS在不同的情况下，不能进行类比。

1TOPS代表处理器每秒钟可进行一万亿次（10^12）操作，但TOPS这个单位，并未说清楚，所做的操作是何种操作。任务复杂程度不同，消耗的时间与算力，当然也是不同的了。

在汽车处理器领域，TOPS指代的一般是INT8运算次数，在专业显卡领域，TOPS指代的一般是FP32或FP64。而在AI处理器上，TOPS则代表的是FP16运算的次数。

所以大家不要觉着汽车处理器的几百上千TOPS特别牛，也别以为专业显卡几十的TOPS不够强了，运算单位完全不同的。

那AMD 锐龙8000系列最高39TOPS（FP16），是什么水平呢？

首先，这个数值超越了一并友商，在消费级处理器里，属于领先水平。

如果是和独立显卡对比，根据techpowerup的数据，RTX4070Ti的FP16运算水平，也才只有40.09TOPS，理论上和AMD 锐龙8000系列的FP16算力在同一水平。

https://mmbiz.qpic.cn/mmbiz_png/ncqN8l14plZ3mIOh8uEgdfXSibQibjLbSg0j5UyMo0mWbRp83CxbAjJDViaDg638seNvlQlee1yZbAwVoN2S0kWdQ/640?wx_fmt=png&from=appmsg

图片来自网络

更得益于Ryzen AI引擎的配合，以及与AMD独显相同的RDNA 3 GPU架构，AMD Ryzen AI处理器的生态也有足够保障，相信很快，Ryzen AI应用的生态就能构建起来，电脑里的AI处理器也能够真正发挥作用了。

所以2024年的“AI PC”并不是一个伪概念，而是真正能为实际使用带来改变的，且这种改变并不是一般的性能提升改变，更多的是电脑的交互方式、使用体验的改变。

AMD 锐龙8000系列在AI方面带来这么大的升级，但搭载这款处理器的笔记本产品的价格，却没有大幅上涨，可以算是加量不加价了。并且AMD锐龙8000系列移动处理器全系都搭载了Ryzen AI引擎，只要认准锐龙8000系列买就没有错。

如果大家需要购买2024款的“AI笔记本”，我根据对笔电的了解及经验，为大家推荐以下几款产品。当然了，大家其实也可以根据自己喜欢的品牌，选择2024年的锐龙8000系列升级款。
1、联想小新Pro 2024 AI超能本

点击下方小程序进行购买

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

什么是“AI处理器”?一文和你讲明白,为何轻薄笔记本上也能“玩AI”!