萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 133|回复: 0

AI云原生推理套件ServingKit发布

[复制链接]
发表于 2025-4-18 17:27 | 显示全部楼层 |阅读模式
作者:微信文章


IDC 最新发布的《中国公有云大模型服务市场格局分析,1Q25》显示,AI 应用迎来爆发式增长,有八成的企业,计划在未来18个月内引入更多生成式 AI,这对 AI 云基础设施层提出了更高的要求。

聚焦多云多模型时代下企业大规模推理应用的需求,4月17日,火山引擎发布 AI 云原生推理套件-AI Cloud Native ServingKit,帮助企业实现从模型部署到推理应用全链路的提效,以更强的推理性能、更优的推理成本、更广泛的生态增强快速构建生产可用的 AI 推理应用。

此外,AI 云原生推理套件深度适配 Dynamo、vLLM、SGLang 等主流推理引擎,吞吐性能进一步增强。



AI 云原生推理套件经历豆包大模型、火山方舟等字节跳动内外部应用的大规模 AI 业务验证,坚持“以模型为中心”的 AI 云原生理念。

本次发布的 AI 云原生推理套件,整合了 AI 容器编排、AI 网关、推理全链路观测和 AI 加速套件的强大能力,支持在大规模 GPU 集群上运行推理工作负载,表现出更强的推理性能、更优的推理成本、更广泛的生态增强。

模型部署阶段:重磅推出 Onion 镜像加速引擎。在对象存储 TOS 缓存多种开源模型和数据集,提供全平台可用下载器,支持用户快速拉取模型,DeepSeek-R1满血版可在109秒内完成模型拉取,集群内单机构建 GDKV Server,40秒完成模型缓存预热,通过 GDKV Cache,仅需13秒完成加载到多节点 GPU 显存,显著提升模型加载效率。

推理阶段:通过 GPU 算子加速器、APIG AI 网关、VKE 编排调度、KVCache 缓存服务等能力升级,来优化推理性能。通过算子优化,DeepSeek R1满血版 TPS 提升超2.4倍;智能路由提供负载感知路由和 KVCache 感知路由,使 TTFT 降低60%;EIC 在多轮次对话中,TTFT 从3s 降低到1s,长文本推理 KVCache 命中率提升了10倍以上。

运维阶段:以全链路推理观测帮助用户告别繁琐故障排查,专注 AI 业务创新。VMP 和 APM 全链路应用观测可以实现主流推理引擎的无侵入埋点,覆盖全场景模型告警,能够做到1分钟追溯告警位置,5分钟内发现故障原因,10分钟完成故障止损,使自主排查时间缩短70%,显著提升推理业务 SLO。

让我们来更直观地感受 AI 云原生推理套件的强大能力:



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-5-3 20:57 , Processed in 0.054306 second(s), 15 queries , Redis On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表