找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 240|回复: 0

AI时代的移动芯片挑战

[复制链接]
发表于 2025-6-28 09:41 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg

边缘 AI、生成式AI和下一代通信正在为手机增加更多负载,手机已经面临着同时满足高性能和低功耗的压力。

主流的智能手机厂商正在努力跟上端侧生成式AI、基本功能不断增长的计算和功耗需求,以及手机和云之间互相传输更多数据的需求。

除了边缘功能(如面部识别和其他端侧应用程序)之外,手机还必须适应新通信协议以及系统和应用程序的更新。这些均通过有限的电池电量完成,同时保证用户在手中或贴脸使用时的热体验。

w2.jpg

图 1:手机电路板,片上系统(SoC)显示在右上角,包含Arm CPU和其他组件。来源:Arm

对于任何一款高端手机配置,所有的SoC都具有异构架构,通过不同的模块做不同的事情,也可以协同工作。移动SoC制造商以异构的方式看待系统,并从平台化的角度看待硬件和软件。

由于AI算法的快速发展和AI模型需求的多样化,为移动市场设计SoC正变得越来越复杂。不同于传统工作负载,AI模型(尤其是大型语言模型(LLM)和Transformer变体)在架构、大小和计算需求方面不断发展,它是一个不断变化的技术目标,而芯片设计必须将对未来AI功能的支持在硬件层面设计到芯片中,并且这些支持一旦制造就无法更改。由于需要同时支持云侧的大参数AI模型和端侧的紧凑高效AI模型(例如TinyLlama),这一挑战进一步加剧。这些端侧较小的LLM模型对于在电源和内存限制极其严格的移动和嵌入式设备上实现AI功能越来越重要。

除了SoC系统设计,AI还推动了单个处理器及其任务分配机制的变化。

处理器方面有两个发展方向,一是增强CPU架构,包括Arm和RISC-V生态,人们通过添加向量数学单元模块,来加速transformer模型所需的各种数学函数。第二个方向是增强神经网络处理单元能力,用于边缘AI模型加速的GPU,通过矢量数学单元,加速模型中的各种运算指令,就像以往对Open GL的GPU所做的一样。

w3.jpg

图2:移动SoC设计,其中AI加速器可以是另一个GPU、NPU或高端ASIC。来源:Synopsys

在过去几年时间,GPU和NPU设计都在定期更新,以跟上新的需求。GPU通常占据高端手机芯片面积的25%,同时NPU的规模也在扩大,可以承担越来越多的工作负载。对于某些工作负载,NPU极为重要,任务负载会分解为NPU中的部分层和GPU中的部分层来共同处理。NPU是低功耗AI设计需求中不可或缺的一部分,对于需要一直上电的模块,NPU具有优势。但整个系统设计仍然需要一个好的CPU,因为工作任务通常需要大量的初始工作和管理。如果CPU性能不佳,那么GPU或NPU会难以发挥效能。

无论是图形计算、通用计算还是特定AI计算,并行处理的能效都是关键重点,Imagination公司通过对ALU引擎重新设计和调整,来实现更加节能的数字运算。进一步地,将NPU领域的更多技术引入GPU,获得更专用的数据处理通道,可提供足够的性能。总体而言,将AI设计到芯片中变得更加容易。越来越多的工程师知道如何使用AI工具创建特定模型,这些工具包括获取数据、标记数据、创建模型、测试模型以及优化模型到终端设备的整个开发流程。

视觉、无线和触摸的挑战

随着人工智能的增加,人们越来越倾向于更视觉的格式,这需要比传统文本格式更多的处理能力。

另外,一切都是无线连接的,模拟信号在手机上已经很容易数字化,现在的手机里大约有六个天线,包括Wi-Fi、5G、LTE、蓝牙、GPS、卫星通信等,都有自己的频率、自己的芯片、自己的天线。通信标准也在不断发展,给SoC设计人员带来了更高的挑战。

最重要的是支持AI用例并让UFS适配,MIPI联盟能够加速有关规范的形成。SoC和IP供应商在制定规范的同时开发他们的IP。当前来看,AI更像是一种软件,它影响硬件层面的芯片设计。

w4.jpg

图3:在智能手机中实现的边缘AI案例(基于下一代内存和存储标准),其中LLM或AI引擎需要在存储上可用。来源:Synopsys

当你打开一个设备时,该模型的大部分快速转移到DRAM中,这意味着从UFS设备到SoC的读取需要非常高效,需要将数据快速推送到DRAM中。当LLM运行在端侧SoC中,需要将其连接到DRAM来执行计算,再将结果返回给用户,以便用户收听到音频等信息。在移动设备中,这一过程必须非常高效。同时低功耗也非常重要,减少数据转移,同时需要尽可能多地将UFS模块置于睡眠模式,因此存储连接和DRAM连接将继续以非常快的速度发展迅猛发展。

多模态模型和生成式AI工具(如 Stable Diffusion)的兴起使AI的复杂性急剧增加,这些工具将文本、图像、音频处理组合到统一的架构中。因此,这些模型需要一个灵活高效的计算结构,能够处理各种数据类型和执行模式。为了在面对不确定性和AI快速发展时保持弹性,AI子系统的设计必须考虑到未来的多种需求,通常需要将可编程IP模块与NPU集成,使SoC能够适应新的模型架构和工作负载。支持如此广泛的AI用例,就要求SoC不仅强大、高效,而且在架构上要具有敏捷性,这使得以AI为中心的芯片设计成为移动计算中最具活力和最具挑战性的前沿领域之一。

手机中算法的另一个挑战是确定屏幕上有效的触摸动作,无论是直板手机还是可折叠手机,由于屏幕非常薄,因此存在额外的挑战。

当显示屏幕变薄时,顶部的触摸层必须非常接近嘈杂的显示层,我们必须处理来自单个像素的大量显示噪声。背景非常薄,以至于相邻层越来越近,使得屏幕具有更高的电容。这是一个大问题,因为当你感应到触摸时,感应到的是一个非常非常小的电容,当有这么多的背景电容时,需要从很大的噪声中确定有效的手指信号,电容噪声在薄面板处理中变得更加困难。然而主机必须检测到触摸,设备花费大量的电量来寻找它,这意味着检测总是处于开启状态,造成了能耗的增加。

AI函数和模型的本地处理

手机包含很多AI应用程序,并且还在不断增长。只要有可能,AI处理应该在手机上进行,这样只有经过提炼的信息才会发送到云端。例如,面部识别或照片编辑等机器学习功能应在靠近摄像头的位置进行处理。

生成式AI模型(例如ChatGPT或代理AI助手)的推理请求也可以在本地处理。当前AI模型变得更加有效和紧凑,如果模型为几兆字节、千字节或千兆字节,它们就可以存储在本地设备上,具体取决于所使用的模型和设备。本地设备端侧处理具有多项优势。通过将AI硬件放入移动设备,可以直接在本地设备中进行大型语言模型推理。由于无需将任务发送至云端来执行繁重的推理工作,而只需在边缘进行推理。这带来多重好处,更低的延迟、更好的即时响应、更好的闭环控制,并为本地生成的数据提供更好的隐私保护

由于没有将数据发送到云端,模型运行降低了功耗,降低了成本,一些边缘AI应用程序可以在不增加连接成本的情况下增加智能,或者它们至少可以减少连接量。这意味着减少云连接并减少了终端设备的功耗。

虽然更多的AI处理在本地设备进行,但由于电池和电源限制,有些任务仍将在云上运行。以移动设备本地运行图像生成模型为例,当前它们的性能远不如您在PC上使用Midjourney软件的效果。但几年后会发生显著改变。更好的GPU是解决方案的一部分,在移动设备中,可以将数据传输等节省的额外功耗转化为更高的时钟频率和更高的性能,以实现在相同的功耗和散热预算范围内运行更大的模型。

结论

推动移动SoC设计变革的关键趋势如下:

视频处理的AI功能正成为强需求,这需要大量的芯片计算能力,由此推动了SoC的发展,但手机制造商需要保持低功耗和小尺寸,比NVIDIA等其他大型GPU的公司更关注成本,更关注性能和成本的平衡。

SOC的设计必须从硬件和软件角度同时进行,包括对大模型的修正和推理,必须找到在硬件层进行数学运算的最佳方法(即算法硬件化),因此必须进行硬件和软件协同设计,以确保解决方案处于领先地位。
(本文总结自半导体工程网站文章,原文作者:Liz Allan,链接:https://semiengineering.com/mobile-chip-challenges-in-the-ai-era/)
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-8-7 07:30 , Processed in 0.116503 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表