GPU 已经等不起了:KV Cache 语义化催生的 AI 存储大变局

由 XSKY星辰天合 发布于2026-03-19


2026 年 3 月 16 日,Jensen Huang 在 GTC 2026 keynote 上展示 Vera Rubin 系统时,指着一个全新的机架说:"BlueField-4 STX,我们的新存储平台。" 紧接着他补充:"100% 的存储行业正在加入我们这个系统。"

这意味着 NVIDIA 在 AI 工厂的全栈布局中,补上了最后一块拼图——存储层。

Vera Rubin 系统由四大机架组成:

  • GPU 计算(Vera Rubin NVL72);

  • CPU 编排(Vera CPU);

  • 网络互联(Spectrum-X);

  • AI 存储(BlueField-4 STX)。

存储首次作为独立机架与 GPU 并列,成为 AI 工厂的第四根支柱。

从 CES 2026 的 ICMS(Inference Context Memory Storage)到 GTC 2026 的 CMX(Context Memory),再到 STX(Storage Technology eXtension)参考架构,NVIDIA 仅用三个月就完成了从"技术概念"到"行业标准"的跃迁。对所有参与 AI 基础设施建设的厂商和客户来说,这是一个信号:NVIDIA 不再只定义计算和网络的标准——存储层的规则,也由它来写了。

发生了什么:三个月,三次升级

1、CES 2026(1 月):ICMS —— 一个存储层级概念

Jensen 在 CES 上首次提出 ICMS(Inference Context Memory Storage),在 GPU 显存和传统存储之间插入一个以太网直连闪存层(G3.5),专门存放 KV Cache。当时 ICMS 还只是一个技术概念,没有独立产品页,没有硬件出货时间。

2、GTC 2026(3 月):CMX —— 一个产品

三个月后,ICMS 改名为 CMX(Context Memory eXtension),三个变化值得注意:

  • 丢掉了 "Inference"

虽然当前主要服务推理场景,但 NVIDIA 显然不想把这个平台限定在单一场景,为未来扩展留了空间。

  • 丢掉了 "Storage"

不再叫存储,叫"上下文内存",强调内存级响应速度。

  • 加了 "X" 后缀

对齐 CUDA-X、Spectrum-X 品牌体系,"X"在 NVIDIA 体系里意味着平台化、可扩展、生态化。

CMX 有了独立产品页,STX 架构下 CMX 的早期采用者包括 CoreWeave、Crusoe、IREN、Lambda、Mistral AI、Nebius、OCI、Vultr。

3、同时:STX —— 一套 AI 存储标准

CMX 解决的是 KV Cache 存储的问题,但 NVIDIA 的野心不止于此。CMX 之上,NVIDIA 发布了更大的框架——STX(Storage Technology eXtension),一个模块化参考架构,定义了 AI 原生存储应该长什么样:Vera CPU + BlueField-4 DPU + Spectrum-X 网络 + CMX 上下文内存,四个组件搭积木。并且宣布了 3 家硬件制造商(AIC、Supermicro、QCT),2026 下半年出货。

如果 Dynamo 是 AI 推理的"操作系统",那 STX 就是 AI 存储的"主板规范"。


为什么现在:AI 推理对存储的需求发生了质变

Jensen 在 keynote 中用一段话点明了这个变化:

"大型语言模型正在变得越来越大。它会更快地生成越来越多的 token。所以它可以思考得更快,但它也必须访问内存。它会对内存造成巨大压力。KV Cache、结构化数据 cuDF、非结构化数据 cuVS——它会对存储系统造成巨大压力。这就是我们重新设计存储系统的原因。"

—— Jensen Huang, GTC 2026 Keynote

这段话揭示了两个关键变化:

1、为什么会造成巨大压力

  • 第一个压力:速度

模型越来越大,生成 token 越来越快,意味着读写 KV Cache 的频率和带宽需求在指数增长。传统存储是为人类使用模式设计的——低频、能容忍延迟。但 AI Agent 每做一步思考都要读写 KV Cache,多轮对话中 90% 以上的 prompt prefix 是重复的,每一次都要以极低延迟返回。存储系统面对的不再是"人在等数据",而是"GPU 在等数据"——GPU 等不起。

"以前人用存储,以后 AI 用存储"

  • 第二个压力:容量

Jensen 提到的不只是 KV Cache,还有 cuDF(结构化数据)和 cuVS(非结构化数据/向量)。当百万级 token 上下文窗口(Claude Opus 4.6 / GPT-5.x)成为常态,单个 Session 的 KV Cache 可达几十 GB。而 GPU 显存(HBM)单卡仅 80-288 GB,其中 60-70% 已被模型权重占用。主机内存(DRAM)虽有 TB 级容量,但成本是 SSD 的 100 倍。

当并发 Session 数增加、上下文窗口增长到百万级时,HBM + DRAM 必然溢出。L3(基于 NVMe SSD 的持久化 KV Cache 存储)从"可选优化"变成了"基础设施刚需"。

而 L3 的价值已经被数据验证,在 Agent 时代的典型工作负载下,KV Cache 命中率可以达到 80% 以上:

80% 命中率意味着推理吞吐接近 3 倍提升——不是靠更强的 GPU,而是靠不重复计算已经算过的上下文。

2、"重新设计"意味着什么

Jensen 说的"重新设计存储系统",不是让传统存储跑得更快。而是 NVIDIA 亲自定义了一套新标准——Dynamo KVBM 负责调度,NIXL 负责传输,BlueField-4 STX 负责硬件加速——告诉存储行业:AI 时代的存储应该长这个样子,这就是 STX 和 CMX 的由来。

NVIDIA 定义的标准栈

GTC 2026 之后,NVIDIA 为 KV Cache 存储定义了完整的技术标准栈:

XSKY MeshFusion:为 CMX 时代而生

XSKY 研发的 MeshFusion 推理存储,正是面向这一趋势而设计的 KV Cache L3 持久化存储方案。它彻底摒弃了传统存储的“外挂”思维,作为推理框架的“外部内存”,与算力节点实现了深度融合。

1、产品定位:KV Cache 的原生管理底座

MeshFusion 将 KV Cache 提升为“第一等数据”进行管理,为推理框架提供持久化、低延迟、可横向扩展的上下文内存。它不修改模型权重、不侵入推理引擎,而是通过标准接口(如 NIXL)与主流推理栈解耦集成,完美契合 NVIDIA 倡导的新一代 AI 存储语义。

2、核心技术特点:为极致吞吐与极低延迟设计

  • 原生 KV Cache Chunk 接口

推理侧的 KV Cache Chunk 直接映射为 MeshFusion 的存储 Chunk,砍掉所有协议转换开销,构建最短 I/O 路径。

  • 用户态零拷贝 IO

基于 Kernel Bypass 架构,数据在从 NVMe 闪存流向 GPU 显存的过程中,实现零拷贝、零上下文切换,彻底消除操作系统层面的延迟抖动。

  • Shared-Everything 并行化架构

允许任何节点上的 IO 进程直接访问所有数据和元数据。统一池化管理全体闪存与网络带宽,天生免疫单点瓶颈。在面对 Agent 时代多租户、多业务的高并发读写时,依然能保证一致的极低尾延时。

  • FlexPath 智能网络引擎

专为高并发 KV 读写定制,支持多路径聚合、智能选路、RDMA 优先(TCP 回退)以及大小 I/O 智能路由,确保底层网络传输的绝对稳定。

3、DPU 原生架构:让存储成为 GPU 显存的自然延伸

MeshFusion 的底层设计决定了它不是一个被动响应的存储盘,而是一个能与异构算力(GPU/DPU)协同呼吸的基础设施组件:

  • 原生植根 DPU

凭借极低的 CPU 和内存资源占用(硬件无损耗设计),MeshFusion 能够直接原生部署在 DPU 上。这不仅完全对齐了 NVIDIA BlueField-4 STX 的参考架构,还能在国产 DPU 生态中无缝落地,将存储管理与网络开销彻底从主机侧卸载。

  • 深度直连 GPU

MeshFusion 的底层通道与 GPU 高速互联网络深度咬合。数据可以直接穿透至 GPU 显存(HBM),真正让 L3 闪存变成了 GPU 能够以极低延迟随时调用的“上下文外部内存”。

  • 无缝兼容现有算力集群

即使在未配备独立 DPU 的通用 GPU/NPU 服务器上,MeshFusion 也能直接利用节点现有的 NVMe SSD 资源,实现零额外硬件投入的性能狂飙。同时,全面支持 NVIDIA GPU 和华为昇腾双栈,覆盖国内外主流算力底座。

写在最后

    NVIDIA 已经亮出了明牌:

    • Dynamo 定义了推理调度的标准;

    • CMX 定义了 KV Cache 存储的标准;

    • STX 定义了 AI 原生存储的参考架构。

    AI 存储不再是传统存储的延伸,而是 GPU 算力的延伸,是一个全新的基础设施层。它需要是面向 KV Cache 语义的、与推理栈深度集成的、能跟上 GPU 速度的新型存储系统,XSKY MeshFusion 正是为此而生


来源:GPU 已经等不起了:KV Cache 语义化催生的 AI 存储大变局
数据常青,智领未来
即刻申请,获 30 天免费使用
在线咨询
快速响应您的问题
工作日: 9:00 ~ 18:00
官方微信