由 XSKY星辰天合 发布于2025-12-26
最近 Tiktok 仅用了 50 行代码就节省了 50% 的 AI 推理成本,这是因为使用了 MaaS 厂商所提供的 Prompt Caching 功能。那什么是 Prompt Caching? Prompt Caching 跟 KVCache 又是什么关系?为什么 AI 推理平台的昂贵 GPU 算力在被重复的浪费?
本文旨在拆解 OpenAI、Claude 及 DeepSeek 定价背后的逻辑,并揭示 “KVCache 的存储层级管理”将成为 AI 推理基础设施的核心能力,并对 MaaS 使用者和企业私有化部署给出建议。
现象观察,价格直降 90% MaaS 厂商和用户的双赢
大型语言模型(LLM)的提示(Prompt)通常包含重复的部分,例如系统消息、全局知识或工具说明。提示缓存(Prompt Caching)通过在多次 API 调用中重用相同提示段的计算来解决这一问题,从而避免对每个请求进行重复处理。
当各大 MaaS 厂商都推出 Prompt Caching (或叫做 Context Caching)功能,其中缓存命中(Cache Hit)的定价通常仅为标准输入的1/10。
这并非 MaaS 厂商单纯的让利,而是为了提高自身的总体吞吐,同时也提高用户体验的重要措施。

注解:这里的“隐式”表示系统有可能自动缓存,不需要用户额外设置;这里的“显示”表示需要用户额外设置。
用户使用 Prompt Caching,不仅能大幅度降低成本,而且使用体验极佳。
DeepSeek 的例子:对 128K 输入且大部分重复的请求,实测首 token 延迟从 13 秒降低到 0.5 秒。
Anthropic 的例子:对于多轮对话,首 token 延迟从 10 秒降低到 2.5 秒。
什么是 Prompt Caching ?
我们先来理解 AI 推理的成本,每次 AI 推理分两个阶段:
Prefill(理解输入):就像读完一本书,属于计算密集,成本与输入长度的平方成正比。
Decode(生成输出):就像一个字一个字写答案,属于内存密集,成本与输出长度成正比。
Prompt Caching 是把已经 Prefill 过的 “中间计算结果(KVCache)” 记下来,下次遇到相同前缀提示则直接复用,避免重复 Prefill,所以它能够带来三大好处:
成本下降(减少 GPU 做昂贵的重算操作);
TTFT 下降(用户的请求的首 token 时间更短);
有效吞吐上升(同样 GPU 处理更多有效的请求)。
Prompt Caching 不是“缓存文本”,而是在缓存 Prefill 的中间计算结果(KVCache),把最贵的那段计算变成可复用资产。

其中缓存命中率决定了用户体验和用户使用成本,Manus 官方博客提到:“如果只能选择一个指标,我认为 KVCache 命中率是生产阶段 AI 代理中最重要的单一指标。它直接影响延迟和成本”。
所以 Prompt Caching 已经从“可选项”到“标配”,成为 MaaS 厂商的标准功能和推理引擎的标准能力。
缓存命中价格只有 1/10 背后的经济学
MaaS 厂商提供 Prompt Caching 功能,反而能够提高厂商的收入,这是为什么呢?
首先重新 Prefill 的时间成本是使用 KVCache 的至少 10 倍以上,所以系统单位时间内的 Input Tokens 的收入是不亏的。
然后用户使用 Prompt Caching 之后,响应变快,会增加用户黏性,并且增加使用次数。
其次系统在使用 Prompt Caching 后,单位时间内的整体请求吞吐能力是提高的。
最后因为用户的请求数增多,而且系统的请求吞吐能力提高,所以 MaaS 厂商整体收入是增加的。
在 2025 年 3 月 1 日,DeepSeek 披露了在 24 小时内,输入 token 总数为 608B,其中 342B tokens(56.3%)命中 KVCache 硬盘缓存。输出 token 总数为 168B。每天的总成本利润率 545%。
在 FAST25 的最佳论文 MoonCake 提到 KIMI 在使用 KVCache 存储之后,提高了全局命中率,整体请求吞吐也提高了 115%。
由此可以看到,MaaS 厂商能够提高 ROI,其中的核心是提高了系统缓存命中率。
如何提高:企业级 AI 推理平台的缓存命中率?
既然缓存命中率对于 MaaS 厂商和用户那么重要,且收益巨大,那么在企业级 AI 推理平台中,如何提高缓存命中率?主要有两种方案。
1、建设 KVCache 的存储层级管理能力
KVCache 存储层级的分工和高效管理,决定了 AI 推理成本和整体吞吐。
使用 L0 保存 AI 推理的瞬时记忆,使用 L1 保存 AI 推理的分钟级记忆,使用 L2 保存 AI 推理的小时级别和天级别的记忆。更低成本更大容量的存储层级能够换来更长的命中窗口(能够存的 KVCache 更多),提高全局命中率,提高系统整体吞吐,降低首 Token 延迟(从十几秒到 1 秒内),做用户的“秒开体验”。
假设使用 DeepSeek-R1 671B 模型,该模型的 128K 的 tokens 的 KVCache 大小是 8.5GiB,假如我们对 1 个 128K 输入 tokens 的请求做 Prefill 计算,至少需要 10 秒时间。从下表我们看从 L1/L2 加载单个请求的 KVCache(大小是 8.5GiB)所需要的时间远比 10 秒少得多。

注:
一台典型的 8 卡 H100 80GB 的 GPU 服务器,配置 2048 GiB DDR5 内存、4x400Gb 网络、4x3.84TB PCIE 5.0 NVME 盘。部署 DeepSeek V3/R1 一般采用 DP+EP 策略,所以每个请求的 KVCache 加载是由单个 GPU 完成。
从 Host RAM 到 GPU RAM 受限于 GPU PCIE5x16 的带宽,从 Host NVMe 到 GPU RAM 受限于 NVMe PCIE5x4 的带宽,从高性分布式全闪存储到 GPU RAM 受限于 GPU PCIE5x16 的带宽。
上表只是加载单个请求的 KVCache 的速度,假如是并发请求,则带宽速度会更高。
高性能布式全闪存储在整个系统的成本占比不高,但是通过增加它可以快速提高系统整体吞吐,具有非常高的 ROI。

目前 Nvidia 主导的 Dynamo 和 Google/Redhat 主导的 llm-d,都是开源的高性能大规模分布式推理框架,两者的特点都是支持 PD 分离结构、KVCache 感知的路由和请求调度、KVCache 的层级存储、KVCache 的传输加速。这两者都致力于将 KV Cache 视为一种可管理的“资产”而非临时中间件。通过提高有效吞吐率和降低首字延迟(TTFT),帮助企业显著降低大规模推理的运营成本。

注解:Nvidia Dynamo 的架构,右下角是 KVCache 的 L1/L2 存储层级
2、使用小 KVCache 的模型
单位 Token 的 KVCache 大小是由模型决定的,当单位 Token 的 KVCache 很大时,则容易出现显存不够就必须下沉 KVCache 到 L1/L2,当下沉带宽不够,则会影响系统整体性能。
DeepSeek 采用 MLA(Multi-head Latent Attention)技术,可以把 KVCache 大幅压缩,从而:
降低显存压力。
降低下沉到 L1/L2 存储层级的带宽要求,且提高从 L1/L2 存储层级的加载速度。
缓存下沉越容易,缓存窗口越能做长,命中率越可能显著提升。命中率越高,系统整体吞吐率越高。
DeepSeek 支持最小缓存粒度 64 Tokens,这 64 Tokens 的 KVCache 大小只有 4.25 MiB,存放在 L0/L1/L2 存储层级上都毫无压力。越小的缓存粒度,缓存命令率更高,这是因为对于 64 Tokens~1024 Tokens 范围内的请求都可以缓存了,但是 OpenAI 只能缓存大于等于 1024 Tokens 的请求。
行动建议:MaaS 用户和企业 AI 落地如何选择?
第一步:识别 “ 重计算税 ” 和成本结构
大多数人以为 AI 推理贵,是因为“模型太大、GPU 太少”。但在真实生产环境里,更常见的是:GPU 并没有在生成新的价值,而是在反复重新计算相同的输入,比如长系统提示词、RAG 文档、多轮对话、工具调用日志等,这都是在浪费昂贵的 GPU 算力。这笔被浪费的钱,我们称之为:重计算税。
当 AI 业务从 “ 短问短答 ” 进入“ 长上下文 + 多轮 + 频繁回访 ” 的状态,成本结构的大头就从 “ 算新输入 ” 变成 “ 重复算相同的输入 ”,这存在巨大的成本优化空间。
第二步:使用 3 个指标判定成本优化空间
有效折扣(对于 MaaS 用户)
不要只看 “ 命中价 1/10 ”,要把最小缓存粒度、缓存写入成本等都算进去。
时间窗口匹配度
你的用户回访间隔 vs 缓存 TTL(如果业务回访在 TTL 外,命中率再高也无用)。
缓存命中率(分口径)
计费命中 ≠ 性能命中;要同时看成本与 TTFT。让缓存命中率成为最重要一等指标。
第三步:把“平台建设清单”一次性规划到位
不要只是 GPU 算力堆砌
把 KPI 从“峰值性能”换成“单位时间有效吞吐 + 缓存命中率+TTFT 稳定性”。
KVCache 的存储层级管理能力补齐
GPU 服务器要配足本地内存与 NVMe 硬盘,为 KVCache 分层打基础。KVCache 管理成为 AI 平台团队的核心技能。
按需建设分布式 KVCache 存储
用更低成本的大容量存储换取更高的系统命中率,降低首 Token 延迟,做“秒开体验”,提高 AI 推理有效吞吐。
结论:AI 推理成本下降是因为对于 KVCache 的有效管理
推理效率的关键不再只是 FLOPS,而是企业是否把 KVCache 当成重要资源来有效管理:能不能把“命中率、TTFT 稳定性、有效吞吐”做成一等指标,并建立 KVCache 的分层与生命周期管理,用更低成本的大容量存储换更高的命中率和更快的用户体验。
KVCache 存储层级管理能力成为 AI 推理的核心能力,第一步是对于“算力、存储、带宽”的重新配置,第二步是能够像数据库一样可观察、可治理、可承诺。
附录一:
DeepSeek 官方在 2025 年 3 月 1 日披露了部分运营信息,在 24 小时统计时段内:
输入 token 总数为 608B,其中 342B tokens(56.3%)命中 KVCache 硬盘缓存。出 token 总数为 168B。
DeepSeek R1 的定价:$0.14 / 百万输入 tokens (缓存命中),$0.55 / 百万输入 tokens (缓存未命中),$2.19 / 百万输出 tokens。
由上,我们可以得到 Output Tokens/ Input Tokens 比率是 0.27。把这些参数输入到下图的计算工具,我们就得到收入是否增加的临界值 1.25 。也就是只要使用 Prompt Caching 之后,系统整体请求吞吐量是之前的至少 1.25 倍,那么就能增加收入。当然这个只是理论计算,毕竟 MaaS 厂商使用 KVCache 存储是会增加少量成本的。

参考
1.【TikTok saves up to 50% on costs with ~50 lines of code with Prompt Caching】
https://developers.tiktok.com/blog/tiktok-saves-50-percent-with-prompt-caching
2.【DeepSeek API 创新采用硬盘缓存,价格再降一个数量级 | DeepSeek API Docs】
https://api-docs.deepseek.com/zh-cn/news/news0802
3.【Prompt caching with Claude | Claude】
https://claude.com/blog/prompt-caching
4.【AI代理的上下文工程:构建Manus的经验教训】
https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
5.【DeepSeek-V3 / R1 推理系统概览 - 知乎】
https://zhuanlan.zhihu.com/p/27181462601
6.[2407.00079] Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving
https://arxiv.org/abs/2407.00079
7.【GitHub - ai-dynamo/dynamo: A Datacenter Scale Distributed Inference Serving Framework】
https://github.com/ai-dynamo/dynamo
8.【GitHub - llm-d/llm-d: Achieve state of the art inference performance with modern accelerators on Kubernetes】
https://github.com/llm-d/llm-d