AI Infra on Kubernetes — Weekly Summary(本周技术精选)+ KV Cache 合集

我爱免费 · 发表于 2026-1-31 02:16

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
KVCache 推荐文章vLLM 相关vLLM Prefill-Decode分离部署架构深度解析vLLM KV Offloading Connector 与 LMCache：架构设计与性能深度对比vLLM KV Offloading Connector 与 LMCache：架构设计与性能深度对比
vLLM Router：让 KV cache 复用和 P/D 拆分的路由层更“懂推理”

LMCache 相关
https://blog.lmcache.ai/zh/

实测！大模型推理性能暴增近 24 倍（基于开源社区先进的 LMCache 高效缓存的技术，构建软硬件协同优化架构，实现了对 KV Cache 的高效分层存储与调度，在大幅缓解显存压力的同时，有效提升模型生成速度）

LMCacheEngine 核心引擎代码分析

LMCacheConnector (vLLM 集成) 代码分析

福利｜AMD × LMCache：基于 AMD GPU 的 LMCache 推理加速

Prompt Caching相关
[ICML 2025]斯坦福大学：Prompt Caching 安全审计新突破，首次量化 LLM API 全局缓存隐私泄露风险

Prompt Caching:让LLM Token成本降低10倍,这是怎么做到的?

[Claude] Prompt Caching原理介绍

KV Cache和Prompt Cache

Prompt caching，一篇就够了。

更多下一代推理优化技术：高性能网络驱动的PD分离与KV Cache Offload测试（上）下一代推理优化技术：高性能网络驱动的PD分离与KV Cache Offload测试（中）下一代推理优化技术：高性能网络驱动的PD分离与KV Cache Offload测试（下）
火山引擎 EIC 解析：构建以 KVCache 为中心的推理新基建

分布式 KVCache 不仅是现有推理架构的重要补充，更是未来技术演进的核心趋势。

https://github.com/jjiantong/Awesome-KV-Cache-Optimization

NVIDIA 开源 KVzap：引入轻量级代理模型，实现 KV Cache 2-4 倍近乎无损压缩

KV 缓存的全面胜利：从 vLLM 前缀缓存到 llm-d 分布式调度

一文算清 LLM 推理显存：权重 + KV Cache + 额外开销，怎么做才不翻车？

AI存储革命：HBM、DRAM和SSD实现KV Cache持久化与多级缓存

AIBrix v0.3.0 发布：KVCache 多级卸载、前缀缓存、公平路由与基准测试工具

KV 缓存的全面胜利：从 vLLM 前缀缓存到 llm-d 分布式调度

SIG-Long 异构融合：昇腾高性能 KVCache 池化框架

Mooncake 架构概览：以 KVCache 为中心的高效 LLM 推理系统设计
英伟达自己做了一套KV Cache存储，SSD市场又爆了
在英伟达最新的Rubin平台中，英伟达用一个叫Inference Context Memory Storage (以下简称ICMS)的存储平台提供了AI原生存储服务，英伟达的ICMS在G3和G4层之间，被称作是G3.5层。

缓存即效率：阿里云 ACK GIE 实现大模型缓存精准命中

使用 llm-d 掌握 KV 缓存感知路由，实现高效的 AI 推理
项目推荐
https://github.com/NVIDIA/NVSentinel/

可以参考这篇文章介绍：使用 NVSentinel 自动监控 Kubernetes AI 集群健康状态

本周 6 篇文章包括 2篇转载，1篇翻译，1篇合集和 2篇原创 SuperNode 浅析和 Pod 启动优化1.SuperNode：AI 基础设施的超节点浅析2.【转载】软件工程的未来在于 SRE3. 开源课程资源大全：汇聚开源教育公开课与通识学习资源4.【转载】堆会骗人：vLLM P/D 分离部署场景下一个"看不见"的内存泄漏5. 【回顾23 KubeCon 演讲内容】Kubernetes Pod 启动速度优化指南（1）通用版6. 【翻译】Kubernetes Gang Scheduling: xAI SGLang OME 实践📬 问题收集：你最关心的 AI-Infra on Cloud Native 问题是什么？
AI 基础设施正在高速演进，从大规模调度、拓扑感知、GPU 管理，到推理平台、成本优化、企业级治理，都有大量值得深入的议题。

👉 欢迎留言或私信告诉我：你最想了解哪些 AI-Infra on Cloud Native 的问题？

一些可能的关注方向包括：

📌 未来文章会根据这些问题进行选题，逐一拆解分析。

账号		自动登录	找回密码
密码			注册

AI Infra on Kubernetes — Weekly Summary(本周技术精选)+ KV Cache 合集

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块