AI云原生推理套件ServingKit发布

多客科技 · 发表于 2025-4-18 17:27

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章

IDC 最新发布的《中国公有云大模型服务市场格局分析，1Q25》显示，AI 应用迎来爆发式增长，有八成的企业，计划在未来18个月内引入更多生成式 AI，这对 AI 云基础设施层提出了更高的要求。

聚焦多云多模型时代下企业大规模推理应用的需求，4月17日，火山引擎发布 AI 云原生推理套件-AI Cloud Native ServingKit，帮助企业实现从模型部署到推理应用全链路的提效，以更强的推理性能、更优的推理成本、更广泛的生态增强快速构建生产可用的 AI 推理应用。

此外，AI 云原生推理套件深度适配 Dynamo、vLLM、SGLang 等主流推理引擎，吞吐性能进一步增强。

AI 云原生推理套件经历豆包大模型、火山方舟等字节跳动内外部应用的大规模 AI 业务验证，坚持“以模型为中心”的 AI 云原生理念。

本次发布的 AI 云原生推理套件，整合了 AI 容器编排、AI 网关、推理全链路观测和 AI 加速套件的强大能力，支持在大规模 GPU 集群上运行推理工作负载，表现出更强的推理性能、更优的推理成本、更广泛的生态增强。

模型部署阶段：重磅推出 Onion 镜像加速引擎。在对象存储 TOS 缓存多种开源模型和数据集，提供全平台可用下载器，支持用户快速拉取模型，DeepSeek-R1满血版可在109秒内完成模型拉取，集群内单机构建 GDKV Server，40秒完成模型缓存预热，通过 GDKV Cache，仅需13秒完成加载到多节点 GPU 显存，显著提升模型加载效率。

推理阶段：通过 GPU 算子加速器、APIG AI 网关、VKE 编排调度、KVCache 缓存服务等能力升级，来优化推理性能。通过算子优化，DeepSeek R1满血版 TPS 提升超2.4倍；智能路由提供负载感知路由和 KVCache 感知路由，使 TTFT 降低60%；EIC 在多轮次对话中，TTFT 从3s 降低到1s，长文本推理 KVCache 命中率提升了10倍以上。

运维阶段：以全链路推理观测帮助用户告别繁琐故障排查，专注 AI 业务创新。VMP 和 APM 全链路应用观测可以实现主流推理引擎的无侵入埋点，覆盖全场景模型告警，能够做到1分钟追溯告警位置，5分钟内发现故障原因，10分钟完成故障止损，使自主排查时间缩短70%，显著提升推理业务 SLO。

让我们来更直观地感受 AI 云原生推理套件的强大能力：

账号		自动登录	找回密码
密码			注册

萍聚头条

AI云原生推理套件ServingKit发布

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块