AI 应用性能优化全景图

多客科技 · 发表于 2025-5-9 23:28

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
大家好，我是玄姐。▼最近直播超级干，预约保你有收获AI 应用基于大模型的推理完成业务执行，由于大模型计算资源消耗大且需要在 AI 应用用客户端进行内容的实时生成，性能优化变得尤为关键。AI 应用推理效率提升不仅涉及底层硬件的优化，还包括大模型层面以及各类软件中间件的协同工作。因此，全面理解大模型的技术架构对于评估和选择推理性能优化策略至关重要。

下面对这9个层性能优化详细剖析之。

—1—

硬件芯片层
芯片层构成了计算系统的硬件基础，主要负责执行基础的算术和逻辑运算，其架构设计直接关系到计算密度、能效比以及并行处理能力。在国际市场上，NVIDIA 和 AMD 等公司是知名的 GPU 生产商，而 Groq 等企业专注于针对 AI 推理任务的芯片性能优化。在中国，有阿里巴巴旗下的平头哥半导体、华为的 AScend 系列、寒武纪科技，以及众多创新型企业，比如：摩尔线程、燧原科技、沐曦集成电路、壁仞科技等，它们都在积极开发相关技术。

—2—

编程语言和芯片开发包层

硬件编程的抽象层提供了接口，用以实现资源的高效分配和指令的有效映射，旨在平衡编程的便捷性和计算的高效率。比如：NVIDIA 的 CUDA、AMD 的 ROCm、平头哥半导体的 HGAI、华为的 Ascend C、寒武纪的 BangC、摩尔线程的 MUSA、燧原科技的 Tops Riser、沐曦集成的 MXMACA 以及壁仞科技的 SUPA 等平台，不仅提供针对硬件优化的编程语言，还配套提供了一系列开发者工具，比如：库、工具包和文档等。

在这些平台中，NVIDIA 的 CUDA 技术生态占据了主导地位，对开发者来说，转向其他编程语言可能会面临较高的转换成本。

—3—

大模型推理加速层

为了在推理阶段提高计算效率和资源利用率，行业采取了编译优化、量化处理和批处理等技术手段来减少延迟和成本。这一领域的参与者包括众多芯片制造商、云服务提供商、软件公司、模型开发社区以及科研机构，它们提供开源解决方案和商业服务，后端集成大型模型，并通过API提供调用服务。

推理加速的核心在于如何以最少的资源实现最高的性能，这就像是“显存管理”与“算力优化”的较量，能够更高效利用资源的方案将胜出。目前业内的主要方案包括：

—4—

大模型层
国外一些主要的大语言模型（LLM）方案包括：OpenAI 的 GPT 系列、Google 的 Gemini、Meta 的 LLaMA、Anthropic 的 Claude、Mistral AI 以及 X 公司的 Grok。特别值得注意的是，Meta 的 LLaMA 和 Mistral AI 已经将它们模型的核心能力进行了开源。其他大型模型也通过发布技术报告或部分开源其能力，为社区做出了贡献。国内主流的大语言模型方案有：阿里云的 Qwen、DeepSeek、百度的文心一言、字节跳动的豆包、腾讯云的混元、科大讯飞的星火以及月之暗面科的 Kimi 等。其中，Qwen 和 DeepSeek 已经开源了它们模型的核心能力，其他模型也通过发布技术报告或部分开源其能力，积极回馈社区。开源的大语言模型（LLM）不再仅仅是闭源模型的跟随者，而是开始引领 AI 的发展方向。DeepSeek、Qwen 和 LLaMA 是目前在开源领域处于领先地位的项目。

—5—

通用深度学习框架层

提供一整套基础工具和功能，这些工具和功能极大地简化了大模型的开发、训练和部署过程。训练的效果很大程度上取决于所使用的工具，其中 PyTorch 和 TensorFlow 是两个最受欢迎的“顶级教练”。以下是一些主流的框架：

—6—

计算平台层
在计算平台层面，由于对 GPU 计算资源的依赖，国内市场主要由公共云服务提供商占据主导地位，比如：阿里云的 AI 计算平台 PAI、百炼、提供无服务器 GPU 计算能力的函数计算 FC、容器计算服务 ACS 以及 GPU 服务器等。而在国际市场上，由于不受美国出口管制政策的限制，加之大模型技术生态系统更加成熟，供应商的种类和数量更为丰富。除了公共云服务提供商所提供的计算能力外，芯片制造商和软件开发商也纷纷进入市场，提供推理计算服务，比如：Groq、together.io、Fireworks.ai 等公司。

随着国内自主研发的 GPU 和 AI 芯片性能的不断提升，预计国内供应商将逐渐增多，他们将提供更多样化的推理计算服务，进一步丰富和完善大型模型的产品供应链。

—7—

应用编排层

大模型的应用编排层是实现大模型在产业中落地的关键中间层，它充当着连接大模型能力和业务场景的“桥梁”，主要用于整合模型、工具、数据和服务，实现复杂 AI 任务的自动化流程构建与执行，从而提升生成效果。

LangChain：这是一个由 Harrison Chase 在2022年创建的开源项目，通过 Chain（链）、Agent（代理）、Memory（记忆）三大组件，可以像搭建乐高积木一样组合工具链，支持包括 OpenAI 在内的30多个模型 API，集成了 Wikipedia、Wolfram Alpha等200多个外部服务，并内置了 Chroma/Pinecone 等向量数据库接口，实现知识库的实时检索增强。

LlamaIndex：专注于数据处理和索引构建，适用于需要对大量数据进行有效管理和利用的场景，特别是当你希望 LLM 能够基于特定领域的知识进行回答时。

以上两个开源项目特别适合 Python 开发者使用。

Spring AI Alibaba：这是专为 Spring 和 Java 开发者设计的智能体开发框架，对 AI 智能体应用的通用开发范式进行了很好的抽象，从原子能力层次，比如：对话模型接入、提示词模板到函数调用，再到高层次抽象，比如：智能体编排、对话记忆，并与国内大模型进行了深度适配，还提供了应用从部署到运维的最佳实践，包括网关、配置管理、部署、可观测等。

以上三个开源项目都是代码级编程框架，具有很高的自由度。

Dify：这是一个开源的 LLM 应用开发平台，提供从 Agent 构建到 AI workflow 编排、RAG 检索、模型管理等能力，可以轻松构建和运营生成式 AI 原生应用。

阿里云百炼：这是一个一站式的大模型开发及应用构建平台。无论是开发者还是业务人员，都能深入参与大模型应用的设计和构建。无需编写代码，通过简单的界面操作，就可以开发 AI 应用。

此外，还可以使用云原生应用开发平台 CAP +函数计算 FC，以 Serverless 的方式，调用算力资源和编排 AI 应用。

以上三个是低代码平台，使用门槛更低，其中，百炼和云原生应用开发平台 CAP +函数计算 FC，提供了推理的算力支持。

—8—

流量管理层

大模型的流量管理层是大模型服务化部署中的关键组件，主要负责处理流量、服务、安全和 API 管理，确保大模型服务在高负载情况下仍能保持稳定且响应迅速。过去，国内对大模型的需求主要集中在训练阶段，对流量管理的需求并不强烈。然而，随着推理需求的快速增长，流量管理正逐渐成为类似 Web 应用架构中不可或缺的一部分。

与 Web 应用不同，大模型应用在流量、服务、安全和 API 管理方面展现出新的特点，并提出了新的需求：

针对这些新特点和需求，传统的 Nginx 网关已经无法应对，因此国内外均出现了大量基于 Envoy 内核的新一代开源网关。

—9

—

大模型应用的业务逻辑实施层也非常关键。这一层需要具备行业专业知识，或具备大模型基础设施专业知识，他们充分利用开源大模型、开源中间件，并结合各自的技术积累，提供集成、线下部署等多元化服务，是大模型技术和应用生态的重要组成部分。由于相对个性化和业务强定制，供应方也比较多，这里不再一一列举。

账号		自动登录	找回密码
密码			注册

萍聚头条

AI 应用性能优化全景图

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块