找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 147|回复: 0

AI 应用性能优化全景图

[复制链接]
发表于 2025-5-9 23:28 | 显示全部楼层 |阅读模式
作者:微信文章
大家好,我是玄姐。▼最近直播超级干,预约保你有收获AI 应用基于大模型的推理完成业务执行,由于大模型计算资源消耗大且需要在 AI 应用用客户端进行内容的实时生成,性能优化变得尤为关键。AI 应用推理效率提升不仅涉及底层硬件的优化,还包括大模型层面以及各类软件中间件的协同工作。因此,全面理解大模型的技术架构对于评估和选择推理性能优化策略至关重要。

下面对这9个层性能优化详细剖析之。

1

硬件芯片层
芯片层构成了计算系统的硬件基础,主要负责执行基础的算术和逻辑运算,其架构设计直接关系到计算密度、能效比以及并行处理能力。在国际市场上,NVIDIA 和 AMD 等公司是知名的 GPU 生产商,而 Groq 等企业专注于针对 AI 推理任务的芯片性能优化。在中国,有阿里巴巴旗下的平头哥半导体、华为的 AScend 系列、寒武纪科技,以及众多创新型企业,比如:摩尔线程、燧原科技、沐曦集成电路、壁仞科技等,它们都在积极开发相关技术。

2

编程语言和芯片开发包层

硬件编程的抽象层提供了接口,用以实现资源的高效分配和指令的有效映射,旨在平衡编程的便捷性和计算的高效率。比如:NVIDIA 的 CUDA、AMD 的 ROCm、平头哥半导体的 HGAI、华为的 Ascend C、寒武纪的 BangC、摩尔线程的 MUSA、燧原科技的 Tops Riser、沐曦集成的 MXMACA 以及壁仞科技的 SUPA 等平台,不仅提供针对硬件优化的编程语言,还配套提供了一系列开发者工具,比如:库、工具包和文档等。

在这些平台中,NVIDIA 的 CUDA 技术生态占据了主导地位,对开发者来说,转向其他编程语言可能会面临较高的转换成本。

3

大模型推理加速层

为了在推理阶段提高计算效率和资源利用率,行业采取了编译优化、量化处理和批处理等技术手段来减少延迟和成本。这一领域的参与者包括众多芯片制造商、云服务提供商、软件公司、模型开发社区以及科研机构,它们提供开源解决方案和商业服务,后端集成大型模型,并通过API提供调用服务。

推理加速的核心在于如何以最少的资源实现最高的性能,这就像是“显存管理”与“算力优化”的较量,能够更高效利用资源的方案将胜出。目前业内的主要方案包括:

    vLLM(Vectorized Large Language Model Inference):由加州大学伯克利分校的研究团队开发的开源大语言模型推理和服务框架,采用 PagedAttention 技术有效减少内存碎片,提高内存利用率,支持多种大语言模型,比如:通义、LLaMA 等,与 Hugging Face 生态系统集成良好,能够直接加载 HF 上的模型权重。

    TensorRT-LLM:NVIDIA 基于 TensorRT 优化的 LLM 开源推理库,深度集成 NVIDIA GPU 硬件特性,比如:Tensor Core,可与 NVIDIA 其他工具和库(比如:CUDA、cuBLAS 等)无缝配合,还可以与 Triton 框架结合,以提升服务在 NVIDIA GPU 上的推理效率。

    ONNX Runtime:微软开发并维护的轻量级、跨平台的高性能推理引擎,旨在打破不同深度学习框架之间的壁垒,使得模型可以在多种环境中高效运行,提高模型的可移植性和部署效率。

    TGI(Text Generation Inference):由 Hugging Face 团队开发,紧密集成 Hugging Face 的 Transformer 库,可轻松加载和使用 Hugging Face 上的众多模型;支持分布式推理,可在多 GPU 环境下扩展服务能力。

    Deepytorch Inference:阿里云 GPU 云服务器自研的 AI 推理加速器,专注于为 Torch 模型提供高性能的推理加速。通过对模型的计算图进行切割、执行层融合以及高性能 OP 的实现,大幅度提升 PyTorch 的推理性能。

    BladeLLM:阿里云人工智能平台 PAI 自研的为大语言模型优化的推理引擎,在模型计算、生成引擎、服务框架、应用场景层均作了提升,性能优于主流开源框架。

    SiliconLLM:硅基流动科技推出的专注于大模型推理加速的框架,自主研发了高效的算子和调度策略,支持多种硬件平台,可与多种深度学习框架协同工作。

    TurboMind:上海人工智能实验室开源,专为 LLaMA 系列大语言模型设计的推理加速引擎,支持动态批处理、持续批处理(Continuous Batching)技术。


4

大模型层
国外一些主要的大语言模型(LLM)方案包括:OpenAI 的 GPT 系列、Google 的 Gemini、Meta 的 LLaMA、Anthropic 的 Claude、Mistral AI 以及 X 公司的 Grok。特别值得注意的是,Meta 的 LLaMA 和 Mistral AI 已经将它们模型的核心能力进行了开源。其他大型模型也通过发布技术报告或部分开源其能力,为社区做出了贡献。国内主流的大语言模型方案有:阿里云的 Qwen、DeepSeek、百度的文心一言、字节跳动的豆包、腾讯云的混元、科大讯飞的星火以及月之暗面科的 Kimi 等。其中,Qwen 和 DeepSeek 已经开源了它们模型的核心能力,其他模型也通过发布技术报告或部分开源其能力,积极回馈社区。开源的大语言模型(LLM)不再仅仅是闭源模型的跟随者,而是开始引领 AI 的发展方向。DeepSeek、Qwen 和 LLaMA 是目前在开源领域处于领先地位的项目。

5

通用深度学习框架层

提供一整套基础工具和功能,这些工具和功能极大地简化了大模型的开发、训练和部署过程。训练的效果很大程度上取决于所使用的工具,其中 PyTorch 和 TensorFlow 是两个最受欢迎的“顶级教练”。以下是一些主流的框架:

    PyTorch:由 Facebook AI Research 开发和维护。它使用动态计算图技术,允许在执行过程中动态地调整计算流程,与 Python 深度集成,提供直观的 API 接口和灵活的编程体验。PyTorch 特别适合快速原型开发、研究和实验,尤其是在需要频繁修改和迭代模型的场景中。

    TensorFlow:由谷歌基于 DistBelief 研发的第二代人工智能学习系统,支持 Python、JavaScript、C++ 和 Java 等多种编程语言。它广泛应用于语音识别、图像识别等机器学习和深度学习领域,支持 CNN、RNN 和 LSTM 等算法。

    JAX:由谷歌开发,旨在为科研人员提供一个既能方便进行算法实验,又能充分利用硬件资源加速计算的工具,尤其在需要进行自动求导和并行计算的场景中表现出色。

    MindSpore:由华为开源,是一种适用于端边云场景的新型开源深度学习训练/推理框架,为 Ascend AI 处理器提供原生支持,以及软硬件协同优化。

    PaddlePaddle:由百度开源,支持多种深度学习模型的高效训练,能在多 GPU 和多节点环境下分布式训练,优化计算资源使用效率。

    MXNet:由 Carlos Guestrin 在华盛顿大学共同开发,是亚马逊云计算服务的首选深度学习框架,支持 C++、Python、Java、Julia、MATLAB、JavaScript、Go、R、Scala 等多种编程语言。

    Caffe:由伯克利人工智能研究小组和伯克利视觉和学习中心开发,内核用 C++ 编写,有 Python 和 Matlab 相关接口。以模块化原则设计,实现了对新的数据格式、网络层和损失函数的轻松扩展。


6

计算平台层
在计算平台层面,由于对 GPU 计算资源的依赖,国内市场主要由公共云服务提供商占据主导地位,比如:阿里云的 AI 计算平台 PAI、百炼、提供无服务器 GPU 计算能力的函数计算 FC、容器计算服务 ACS 以及 GPU 服务器等。而在国际市场上,由于不受美国出口管制政策的限制,加之大模型技术生态系统更加成熟,供应商的种类和数量更为丰富。除了公共云服务提供商所提供的计算能力外,芯片制造商和软件开发商也纷纷进入市场,提供推理计算服务,比如:Groq、together.io、Fireworks.ai 等公司。

随着国内自主研发的 GPU 和 AI 芯片性能的不断提升,预计国内供应商将逐渐增多,他们将提供更多样化的推理计算服务,进一步丰富和完善大型模型的产品供应链。

7

应用编排层

大模型的应用编排层是实现大模型在产业中落地的关键中间层,它充当着连接大模型能力和业务场景的“桥梁”,主要用于整合模型、工具、数据和服务,实现复杂 AI 任务的自动化流程构建与执行,从而提升生成效果。

LangChain:这是一个由 Harrison Chase 在2022年创建的开源项目,通过 Chain(链)、Agent(代理)、Memory(记忆)三大组件,可以像搭建乐高积木一样组合工具链,支持包括 OpenAI 在内的30多个模型 API,集成了 Wikipedia、Wolfram Alpha等200多个外部服务,并内置了 Chroma/Pinecone 等向量数据库接口,实现知识库的实时检索增强。

LlamaIndex:专注于数据处理和索引构建,适用于需要对大量数据进行有效管理和利用的场景,特别是当你希望 LLM 能够基于特定领域的知识进行回答时。

以上两个开源项目特别适合 Python 开发者使用。

Spring AI Alibaba:这是专为 Spring 和 Java 开发者设计的智能体开发框架,对 AI 智能体应用的通用开发范式进行了很好的抽象,从原子能力层次,比如:对话模型接入、提示词模板到函数调用,再到高层次抽象,比如:智能体编排、对话记忆,并与国内大模型进行了深度适配,还提供了应用从部署到运维的最佳实践,包括网关、配置管理、部署、可观测等。

以上三个开源项目都是代码级编程框架,具有很高的自由度。

Dify:这是一个开源的 LLM 应用开发平台,提供从 Agent 构建到 AI workflow 编排、RAG 检索、模型管理等能力,可以轻松构建和运营生成式 AI 原生应用。

阿里云百炼:这是一个一站式的大模型开发及应用构建平台。无论是开发者还是业务人员,都能深入参与大模型应用的设计和构建。无需编写代码,通过简单的界面操作,就可以开发 AI 应用。

此外,还可以使用云原生应用开发平台 CAP +函数计算 FC,以 Serverless 的方式,调用算力资源和编排 AI 应用。

以上三个是低代码平台,使用门槛更低,其中,百炼和云原生应用开发平台 CAP +函数计算 FC,提供了推理的算力支持。

8

流量管理层

大模型的流量管理层是大模型服务化部署中的关键组件,主要负责处理流量、服务、安全和 API 管理,确保大模型服务在高负载情况下仍能保持稳定且响应迅速。过去,国内对大模型的需求主要集中在训练阶段,对流量管理的需求并不强烈。然而,随着推理需求的快速增长,流量管理正逐渐成为类似 Web 应用架构中不可或缺的一部分。

与 Web 应用不同,大模型应用在流量、服务、安全和 API 管理方面展现出新的特点,并提出了新的需求:

    长连接:由于 AI 场景中常见的 Websocket 和 SSE 协议,长连接的比例很高,要求网关在更新配置时对长连接无影响,不影响业务。

    高延时:LLM 推理的响应延时比普通应用要高很多,使得 AI 应用容易受到恶意攻击,容易被构造慢请求进行异步并发攻击,攻击者成本低,但服务端开销高。

    大带宽:结合 LLM 上下文来回传输,以及高延时的特性,AI 场景对带宽的消耗远超普通应用,网关如果没有实现较好的流式处理能力和内存回收机制,容易导致内存快速上涨。

针对这些新特点和需求,传统的 Nginx 网关已经无法应对,因此国内外均出现了大量基于 Envoy 内核的新一代开源网关。

    Higress:基于 Istio 和 Envoy 内核,并针对生产业务需求进行了增强,可用于部署 Web 类应用和大模型应用。在 AI 领域,已经支撑了通义千问 APP、百炼大模型 API、机器学习 PAI 平台、FastGPT、中华财险等 AI 业务。

    Kong AI Gateway:基于 Kong 的插件架构,具有很强的可扩展性。开发者可以根据自己的需求开发自定义插件,以实现特定的功能,比如:自定义的流量控制策略、数据转换、模型框架的调度等。

    阿里云云原生 API 网关:提供大模型相关 API 的全生命周期管理,与阿里云其他云产品集成体验好,比如:PAI、函数计算等,同时基于 Higress 提供了诸多开源增强能力。

    9

    业务逻辑实施层

大模型应用的业务逻辑实施层也非常关键。这一层需要具备行业专业知识,或具备大模型基础设施专业知识,他们充分利用开源大模型、开源中间件,并结合各自的技术积累,提供集成、线下部署等多元化服务,是大模型技术和应用生态的重要组成部分。由于相对个性化和业务强定制,供应方也比较多,这里不再一一列举。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-5-12 04:04 , Processed in 0.086245 second(s), 27 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表