vLLM(Vectorized Large Language Model Inference):由加州大学伯克利分校的研究团队开发的开源大语言模型推理和服务框架,采用 PagedAttention 技术有效减少内存碎片,提高内存利用率,支持多种大语言模型,比如:通义、LLaMA 等,与 Hugging Face 生态系统集成良好,能够直接加载 HF 上的模型权重。
Spring AI Alibaba:这是专为 Spring 和 Java 开发者设计的智能体开发框架,对 AI 智能体应用的通用开发范式进行了很好的抽象,从原子能力层次,比如:对话模型接入、提示词模板到函数调用,再到高层次抽象,比如:智能体编排、对话记忆,并与国内大模型进行了深度适配,还提供了应用从部署到运维的最佳实践,包括网关、配置管理、部署、可观测等。
以上三个开源项目都是代码级编程框架,具有很高的自由度。
Dify:这是一个开源的 LLM 应用开发平台,提供从 Agent 构建到 AI workflow 编排、RAG 检索、模型管理等能力,可以轻松构建和运营生成式 AI 原生应用。
阿里云百炼:这是一个一站式的大模型开发及应用构建平台。无论是开发者还是业务人员,都能深入参与大模型应用的设计和构建。无需编写代码,通过简单的界面操作,就可以开发 AI 应用。
此外,还可以使用云原生应用开发平台 CAP +函数计算 FC,以 Serverless 的方式,调用算力资源和编排 AI 应用。
以上三个是低代码平台,使用门槛更低,其中,百炼和云原生应用开发平台 CAP +函数计算 FC,提供了推理的算力支持。
—8—
流量管理层
大模型的流量管理层是大模型服务化部署中的关键组件,主要负责处理流量、服务、安全和 API 管理,确保大模型服务在高负载情况下仍能保持稳定且响应迅速。过去,国内对大模型的需求主要集中在训练阶段,对流量管理的需求并不强烈。然而,随着推理需求的快速增长,流量管理正逐渐成为类似 Web 应用架构中不可或缺的一部分。
与 Web 应用不同,大模型应用在流量、服务、安全和 API 管理方面展现出新的特点,并提出了新的需求:
长连接:由于 AI 场景中常见的 Websocket 和 SSE 协议,长连接的比例很高,要求网关在更新配置时对长连接无影响,不影响业务。
高延时:LLM 推理的响应延时比普通应用要高很多,使得 AI 应用容易受到恶意攻击,容易被构造慢请求进行异步并发攻击,攻击者成本低,但服务端开销高。