找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 228|回复: 0

AI Infra on Kubernetes — Weekly Summary(本周技术精选)+ KV Cache 合集

[复制链接]
发表于 2026-1-31 02:16 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
KVCache 推荐文章vLLM 相关vLLM Prefill-Decode分离部署架构深度解析vLLM KV Offloading Connector 与 LMCache:架构设计与性能深度对比vLLM KV Offloading Connector 与 LMCache:架构设计与性能深度对比
vLLM Router:让 KV cache 复用和 P/D 拆分的路由层更“懂推理”

LMCache 相关
https://blog.lmcache.ai/zh/

实测!大模型推理性能暴增近 24 倍 (基于开源社区先进的 LMCache 高效缓存技术构建软硬件协同优化架构实现了对 KV Cache 的高效分层存储与调度,在大幅缓解显存压力的同时,有效提升模型生成速度)




LMCacheEngine 核心引擎代码分析

LMCacheConnector (vLLM 集成) 代码分析

福利|AMD × LMCache:基于 AMD GPU 的 LMCache 推理加速

Prompt Caching相关
[ICML 2025]斯坦福大学:Prompt Caching 安全审计新突破,首次量化 LLM API 全局缓存隐私泄露风险

Prompt Caching:让LLM Token成本降低10倍,这是怎么做到的?

[Claude] Prompt Caching原理介绍

KV Cache和Prompt Cache

Prompt caching,一篇就够了。

更多下一代推理优化技术:高性能网络驱动的PD分离与KV Cache Offload测试(上)下一代推理优化技术:高性能网络驱动的PD分离与KV Cache Offload测试(中)下一代推理优化技术:高性能网络驱动的PD分离与KV Cache Offload测试(下)
火山引擎 EIC 解析:构建以 KVCache 为中心的推理新基建

    KVCache 之困:显存的“吞金兽”与重复的计算

    KVCache 之难:灵活的动态调度与存算分离

    模型加载之痛:启动慢、扩容难、资源空占

分布式 KVCache 不仅是现有推理架构的重要补充,更是未来技术演进的核心趋势。

https://github.com/jjiantong/Awesome-KV-Cache-Optimization

w1.jpg

NVIDIA 开源 KVzap:引入轻量级代理模型,实现 KV Cache 2-4 倍近乎无损压缩

KV 缓存的全面胜利:从 vLLM 前缀缓存到 llm-d 分布式调度

一文算清 LLM 推理显存:权重 + KV Cache + 额外开销,怎么做才不翻车?

AI存储革命:HBM、DRAM和SSD实现KV Cache持久化与多级缓存

AIBrix v0.3.0 发布:KVCache 多级卸载、前缀缓存、公平路由与基准测试工具

KV 缓存的全面胜利:从 vLLM 前缀缓存到 llm-d 分布式调度


SIG-Long 异构融合:昇腾高性能 KVCache 池化框架

Mooncake 架构概览:以 KVCache 为中心的高效 LLM 推理系统设计
英伟达自己做了一套KV Cache存储,SSD市场又爆了
在英伟达最新的Rubin平台中,英伟达用一个叫Inference Context Memory Storage (以下简称ICMS)的存储平台提供了AI原生存储服务,英伟达的ICMS在G3和G4层之间,被称作是G3.5层。

缓存即效率:阿里云 ACK GIE 实现大模型缓存精准命中

使用 llm-d 掌握 KV 缓存感知路由,实现高效的 AI 推理
项目推荐
https://github.com/NVIDIA/NVSentinel/

可以参考这篇文章介绍:使用 NVSentinel 自动监控 Kubernetes AI 集群健康状态

w2.jpg
本周 6 篇文章包括 2篇转载 ,1篇翻译,1篇合集和 2篇原创 SuperNode 浅析和 Pod 启动优化1.SuperNode:AI 基础设施的超节点浅析2.【转载】软件工程的未来在于 SRE3. 开源课程资源大全:汇聚开源教育公开课与通识学习资源4.【转载】堆会骗人:vLLM P/D 分离部署场景下一个"看不见"的内存泄漏5. 【回顾23 KubeCon 演讲内容】Kubernetes Pod 启动速度优化指南(1)通用版6. 【翻译】Kubernetes Gang Scheduling: xAI SGLang OME 实践📬 问题收集:你最关心的 AI-Infra on Cloud Native 问题是什么?
AI 基础设施正在高速演进,从大规模调度、拓扑感知、GPU 管理,到推理平台、成本优化、企业级治理,都有大量值得深入的议题。

👉 欢迎留言或私信告诉我:你最想了解哪些 AI-Infra on Cloud Native 的问题?

一些可能的关注方向包括:

    大规模 GPU 调度

    推理平台实践

    AI 训练作业管理(JobSet、Kueue、Ray、Gang Scheduling)

    AI 成本优化(GPU 利用率、Warm Pool、冷热分层、Spot 策略)

    多集群与超大规模架构

    AI-Agent on Kubernetes

    Observability

    AI-Native 云平台设计(升级、性能、CRD 设计)


📌 未来文章会根据这些问题进行选题,逐一拆解分析。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2026-2-23 05:16 , Processed in 0.139277 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表