GPU 已经等不起了：KV Cache 语义化催生的 AI 存储大变局

由 XSKY星辰天合发布于2026-03-19

2026 年 3 月 16 日，Jensen Huang 在 GTC 2026 keynote 上展示 Vera Rubin 系统时，指着一个全新的机架说："BlueField-4 STX，我们的新存储平台。" 紧接着他补充："100% 的存储行业正在加入我们这个系统。"

这意味着 NVIDIA 在 AI 工厂的全栈布局中，补上了最后一块拼图——存储层。

Vera Rubin 系统由四大机架组成：

GPU 计算（Vera Rubin NVL72）；
CPU 编排（Vera CPU）；
网络互联（Spectrum-X）；
AI 存储（BlueField-4 STX）。

存储首次作为独立机架与 GPU 并列，成为 AI 工厂的第四根支柱。

从 CES 2026 的 ICMS（Inference Context Memory Storage）到 GTC 2026 的 CMX（Context Memory），再到 STX（Storage Technology eXtension）参考架构，NVIDIA 仅用三个月就完成了从"技术概念"到"行业标准"的跃迁。对所有参与 AI 基础设施建设的厂商和客户来说，这是一个信号：NVIDIA 不再只定义计算和网络的标准——存储层的规则，也由它来写了。

发生了什么:三个月，三次升级

1、CES 2026（1 月）：ICMS —— 一个存储层级概念

Jensen 在 CES 上首次提出 ICMS（Inference Context Memory Storage），在 GPU 显存和传统存储之间插入一个以太网直连闪存层（G3.5），专门存放 KV Cache。当时 ICMS 还只是一个技术概念，没有独立产品页，没有硬件出货时间。

2、GTC 2026（3 月）：CMX —— 一个产品

三个月后，ICMS 改名为 CMX（Context Memory eXtension），三个变化值得注意：

丢掉了 "Inference"

虽然当前主要服务推理场景，但 NVIDIA 显然不想把这个平台限定在单一场景，为未来扩展留了空间。

丢掉了 "Storage"

不再叫存储，叫"上下文内存"，强调内存级响应速度。

加了 "X" 后缀

对齐 CUDA-X、Spectrum-X 品牌体系，"X"在 NVIDIA 体系里意味着平台化、可扩展、生态化。

CMX 有了独立产品页，STX 架构下 CMX 的早期采用者包括 CoreWeave、Crusoe、IREN、Lambda、Mistral AI、Nebius、OCI、Vultr。

3、同时：STX —— 一套 AI 存储标准

CMX 解决的是 KV Cache 存储的问题，但 NVIDIA 的野心不止于此。CMX 之上，NVIDIA 发布了更大的框架——STX（Storage Technology eXtension），一个模块化参考架构，定义了 AI 原生存储应该长什么样：Vera CPU + BlueField-4 DPU + Spectrum-X 网络 + CMX 上下文内存，四个组件搭积木。并且宣布了 3 家硬件制造商（AIC、Supermicro、QCT），2026 下半年出货。

如果 Dynamo 是 AI 推理的"操作系统"，那 STX 就是 AI 存储的"主板规范"。

为什么现在：AI 推理对存储的需求发生了质变

Jensen 在 keynote 中用一段话点明了这个变化：

"大型语言模型正在变得越来越大。它会更快地生成越来越多的 token。所以它可以思考得更快，但它也必须访问内存。它会对内存造成巨大压力。KV Cache、结构化数据 cuDF、非结构化数据 cuVS——它会对存储系统造成巨大压力。这就是我们重新设计存储系统的原因。"

—— Jensen Huang, GTC 2026 Keynote

这段话揭示了两个关键变化：

1、为什么会造成巨大压力

第一个压力：速度

模型越来越大，生成 token 越来越快，意味着读写 KV Cache 的频率和带宽需求在指数增长。传统存储是为人类使用模式设计的——低频、能容忍延迟。但 AI Agent 每做一步思考都要读写 KV Cache，多轮对话中 90% 以上的 prompt prefix 是重复的，每一次都要以极低延迟返回。存储系统面对的不再是"人在等数据"，而是"GPU 在等数据"——GPU 等不起。

"以前人用存储，以后 AI 用存储"。

第二个压力：容量

Jensen 提到的不只是 KV Cache，还有 cuDF（结构化数据）和 cuVS（非结构化数据/向量）。当百万级 token 上下文窗口（Claude Opus 4.6 / GPT-5.x）成为常态，单个 Session 的 KV Cache 可达几十 GB。而 GPU 显存（HBM）单卡仅 80-288 GB，其中 60-70% 已被模型权重占用。主机内存（DRAM）虽有 TB 级容量，但成本是 SSD 的 100 倍。

当并发 Session 数增加、上下文窗口增长到百万级时，HBM + DRAM 必然溢出。L3（基于 NVMe SSD 的持久化 KV Cache 存储）从"可选优化"变成了"基础设施刚需"。

而 L3 的价值已经被数据验证，在 Agent 时代的典型工作负载下，KV Cache 命中率可以达到 80% 以上：

80% 命中率意味着推理吞吐接近 3 倍提升——不是靠更强的 GPU，而是靠不重复计算已经算过的上下文。

2、"重新设计"意味着什么

Jensen 说的"重新设计存储系统"，不是让传统存储跑得更快。而是 NVIDIA 亲自定义了一套新标准——Dynamo KVBM 负责调度，NIXL 负责传输，BlueField-4 STX 负责硬件加速——告诉存储行业：AI 时代的存储应该长这个样子，这就是 STX 和 CMX 的由来。

NVIDIA 定义的标准栈

GTC 2026 之后，NVIDIA 为 KV Cache 存储定义了完整的技术标准栈：

XSKY MeshFusion：为 CMX 时代而生

XSKY 研发的 MeshFusion 推理存储，正是面向这一趋势而设计的 KV Cache L3 持久化存储方案。它彻底摒弃了传统存储的“外挂”思维，作为推理框架的“外部内存”，与算力节点实现了深度融合。

1、产品定位：KV Cache 的原生管理底座

MeshFusion 将 KV Cache 提升为“第一等数据”进行管理，为推理框架提供持久化、低延迟、可横向扩展的上下文内存。它不修改模型权重、不侵入推理引擎，而是通过标准接口（如 NIXL）与主流推理栈解耦集成，完美契合 NVIDIA 倡导的新一代 AI 存储语义。

2、核心技术特点：为极致吞吐与极低延迟设计

原生 KV Cache Chunk 接口

推理侧的 KV Cache Chunk 直接映射为 MeshFusion 的存储 Chunk，砍掉所有协议转换开销，构建最短 I/O 路径。

用户态零拷贝 IO

基于 Kernel Bypass 架构，数据在从 NVMe 闪存流向 GPU 显存的过程中，实现零拷贝、零上下文切换，彻底消除操作系统层面的延迟抖动。

Shared-Everything 并行化架构

允许任何节点上的 IO 进程直接访问所有数据和元数据。统一池化管理全体闪存与网络带宽，天生免疫单点瓶颈。在面对 Agent 时代多租户、多业务的高并发读写时，依然能保证一致的极低尾延时。

FlexPath 智能网络引擎

专为高并发 KV 读写定制，支持多路径聚合、智能选路、RDMA 优先（TCP 回退）以及大小 I/O 智能路由，确保底层网络传输的绝对稳定。

3、DPU 原生架构：让存储成为 GPU 显存的自然延伸

MeshFusion 的底层设计决定了它不是一个被动响应的存储盘，而是一个能与异构算力（GPU/DPU）协同呼吸的基础设施组件：

原生植根 DPU

凭借极低的 CPU 和内存资源占用（硬件无损耗设计），MeshFusion 能够直接原生部署在 DPU 上。这不仅完全对齐了 NVIDIA BlueField-4 STX 的参考架构，还能在国产 DPU 生态中无缝落地，将存储管理与网络开销彻底从主机侧卸载。

深度直连 GPU

MeshFusion 的底层通道与 GPU 高速互联网络深度咬合。数据可以直接穿透至 GPU 显存（HBM），真正让 L3 闪存变成了 GPU 能够以极低延迟随时调用的“上下文外部内存”。

无缝兼容现有算力集群

即使在未配备独立 DPU 的通用 GPU/NPU 服务器上，MeshFusion 也能直接利用节点现有的 NVMe SSD 资源，实现零额外硬件投入的性能狂飙。同时，全面支持 NVIDIA GPU 和华为昇腾双栈，覆盖国内外主流算力底座。

写在最后

NVIDIA 已经亮出了明牌：

Dynamo 定义了推理调度的标准；
CMX 定义了 KV Cache 存储的标准；
STX 定义了 AI 原生存储的参考架构。

AI 存储不再是传统存储的延伸，而是 GPU 算力的延伸，是一个全新的基础设施层。它需要是面向 KV Cache 语义的、与推理栈深度集成的、能跟上 GPU 速度的新型存储系统，XSKY MeshFusion 正是为此而生。

来源：GPU 已经等不起了：KV Cache 语义化催生的 AI 存储大变局