长上下文 AI 时代的持久化内存 L3 存储

突破 HBM 容量墙,解锁 Agentic AI 无限潜力
Banner

无限语境

支持百万级 Token 上下文
无限语境

极致降本

以 1/100 的成本扩展内存容量
极致降本

极速响应

微秒级延迟,稳定 p99
极速响应

长上下文 AI 时代的持久化内存 L3 存储

突破 HBM 容量墙,解锁 Agentic AI 无限潜力
Banner

无限语境

支持百万级 Token 上下文
无限语境

极致降本

以 1/100 的成本扩展内存容量
极致降本

极速响应

微秒级延迟,稳定 p99
极速响应
AI 推理正在撞上"内存墙"
上下文"大爆炸"
从 4K 到 1M+ Token,Agentic AI 的多轮对话与复杂任务处理让上下文呈指数级增长,HBM 容量增长远落后于模型需求
上下文"大爆炸"
昂贵的"内存墙"
依赖堆砌 HBM (L1) 和 DRAM (L2) 扩展上下文成本极高,且 GPU 利用率常年徘徊在 30%-55%
昂贵的"内存墙"
传统存储的失效
传统 NAS 或对象存储延迟高、不仅无法满足 KVCache 的微秒级读写需求,更缺乏对细碎 Page 的优化
传统存储的失效
为 AI 推理打造的 L3 “外部内存”
MeshFusion 是一款融合型存储系统,采用 Shared-Everything 架构,将每台 GPU 服务器的本地 NVMe SSD、空闲 CPU 核心与高速网络聚合成一个统一的高性能存储池。
它不只是存储,更是 AI 推理栈的延伸。通过将冷/温 KVCache 下沉至 MeshFusion,实现“存算解耦”的容量与“存算融合”的性能
四大关键技术,打破存储性能瓶颈
FlexPath™ 智能网络引擎
摒弃传统 Bonding,支持多网卡/多子网动态条带化并行。自动识别大小 I/O,大 I/O 叠加带宽,小 I/O 低抖动直通,毫秒级链路切换
FlexPath™ 智能网络引擎
端到端零拷贝(Zero-Copy)
专为 NVMe 设计的 SPDK 用户态访问。配合 usrbio 接口,实现从网卡到 GPU 显存的数据零拷贝,消除内核上下文切换开销
端到端零拷贝(Zero-Copy)
智能小 IO 聚合
针对 KVCache 大量细碎 Page 的特性,在客户端进行聚合,将随机小写转换为后端友好的顺序大写,大幅降低写放大
智能小 IO 聚合
Shared-Everything 并行架构
任何节点可并行访问任意数据。单一命名空间管理全闪存池,彻底消除“热点瓶颈”,线性扩展性能与容量
Shared-Everything 并行架构
专为 KVCache 而生:极致性能与灵活部署
极致性能架构
MeshFusion 采用全对称分布式架构,消除热点瓶颈,任一节点可访问全局数据,实现性能线性扩展。底层融合 RDMA 与智能选路,保障毫秒级故障切换。更通过 usrbio 技术绕过内核,实现数据直达 GPU 显存,在大幅降低 CPU 开销的同时,彻底释放 AI 极致吞吐性能。
极致性能架构极致性能架构
专为 KVCache 优化
针对 KVCache 细碎 Page 写入,系统智能聚合为顺序大写,大幅提升持久化效率;并在高并发下保持 P95/P99 延迟平稳,有效杜绝推理卡顿。配合高并发预取技术,MeshFusion 可瞬间加载历史会话,实现长 Context 场景下的秒级“热启动”,保障丝滑流畅体验。
专为 KVCache 优化专为 KVCache 优化
灵活部署形态
可提供高度灵活的架构选择以适应不同阶段的业务需求。融合部署模式可利用 GPU 服务器闲置 CPU 与本地 NVMe 构建存储池,无需专用硬件,实现极致性价比;分离部署模式构建独立存储集群,适合超大规模 AI 工厂,实现存算资源的解耦扩容与统一精细化治理。
灵活部署形态灵活部署形态
无缝融入主流推理生态
  MeshFusion 不修改模型权重,不改变服务逻辑,以 “系统工程” 代替 “堆砌硬件”
推理服务兼容

推理服务兼容

vLLM, SGLang, NVIDIA Dynamo, LMDeploy

KVCache 框架适配

KVCache 框架适配

Mooncake, HiCache, LMCache

接口支持

接口支持

POSIX, usrbio

硬件支持

硬件支持

广泛适配 NVIDIA 及国产 GPU 算力卡(华为 Ascend、寒武纪等)

全场景赋能:从长文本分析到 Agentic AI

Agentic AI (AI 智能体)

场景

场景

代码生成、复杂任务规划。

价值

价值

持久化存储多轮对话的历史状态,无需重复计算,降低端到端延迟。

长文档分析 (Long Context)

场景

场景

法律合同审查、财报分析、书籍问答。

价值

价值

低成本承载 128K~1M+ 超长上下文,避免显存溢出 (OOM)。

多租户模型服务 (Model Serving)

场景

场景

云厂商 API 服务。

价值

价值

在有限的 GPU 显存中并发服务更多用户,提升 ROI。

XSKY MeshFusion 让 AI 记忆无限延伸
即刻申请,获 30 天免费使用
在线咨询
快速响应您的问题
工作日: 9:00 ~ 18:00
官方微信