长上下文 AI 时代的持久化内存 L3 存储

突破 HBM 容量墙,解锁 Agentic AI 无限潜力
Banner

无限语境

支持百万级 Token 上下文
无限语境

极致降本

以 1/100 的成本扩展内存容量
极致降本

极速响应

微秒级延迟,稳定 p99
极速响应

长上下文 AI 时代的持久化内存 L3 存储

突破 HBM 容量墙,解锁 Agentic AI 无限潜力
Banner

无限语境

支持百万级 Token 上下文
无限语境

极致降本

以 1/100 的成本扩展内存容量
极致降本

极速响应

微秒级延迟,稳定 p99
极速响应
AI 推理正在撞上"内存墙"
上下文"大爆炸"
从 4K 到 1M+ Token,Agentic AI 的多轮对话与复杂任务处理让上下文呈指数级增长,HBM 容量增长远落后于模型需求
上下文"大爆炸"
昂贵的"内存墙"
依赖堆砌 HBM (L1) 和 DRAM (L2) 扩展上下文成本极高,且 GPU 利用率常年徘徊在 30%-55%
昂贵的"内存墙"
传统存储的失效
传统 NAS 或对象存储延迟高、不仅无法满足 KVCache 的微秒级读写需求,更缺乏对细碎 Page 的优化
传统存储的失效
为 AI 推理打造的 L3 “外部内存”
MeshFusion 是一款融合型存储系统,采用 Shared-Everything 架构,将每台 GPU 服务器的本地 NVMe SSD、空闲 CPU 核心与高速网络聚合成一个统一的高性能存储池。
它不只是存储,更是 AI 推理栈的延伸。通过将冷/温 KVCache 下沉至 MeshFusion,实现“存算解耦”的容量与“存算融合”的性能
四大关键技术,打破存储性能瓶颈
FlexPath™ 智能网络引擎
摒弃传统 Bonding,支持多网卡/多子网动态条带化并行。自动识别大小 I/O,大 I/O 叠加带宽,小 I/O 低抖动直通,毫秒级链路切换
FlexPath™ 智能网络引擎
端到端零拷贝(Zero-Copy)
专为 NVMe 设计的 SPDK 用户态访问。配合 usrbio 接口,实现从网卡到 GPU 显存的数据零拷贝,消除内核上下文切换开销
端到端零拷贝(Zero-Copy)
智能小 IO 聚合
针对 KVCache 大量细碎 Page 的特性,在客户端进行聚合,将随机小写转换为后端友好的顺序大写,大幅降低写放大
智能小 IO 聚合
Shared-Everything 并行架构
任何节点可并行访问任意数据。单一命名空间管理全闪存池,彻底消除“热点瓶颈”,线性扩展性能与容量
Shared-Everything 并行架构
专为 KVCache 而生:极致性能与灵活部署
极致性能架构
MeshFusion 采用全对称分布式架构,消除热点瓶颈,任一节点可访问全局数据,实现性能线性扩展。底层融合 RDMA 与智能选路,保障毫秒级故障切换。更通过 usrbio 技术绕过内核,实现数据直达 GPU 显存,在大幅降低 CPU 开销的同时,彻底释放 AI 极致吞吐性能。
极致性能架构极致性能架构
专为 KVCache 优化
针对 KVCache 细碎 Page 写入,系统智能聚合为顺序大写,大幅提升持久化效率;并在高并发下保持 P95/P99 延迟平稳,有效杜绝推理卡顿。配合高并发预取技术,MeshFusion 可瞬间加载历史会话,实现长 Context 场景下的秒级“热启动”,保障丝滑流畅体验。
专为 KVCache 优化专为 KVCache 优化
灵活部署形态
可提供高度灵活的架构选择以适应不同阶段的业务需求。融合部署模式可利用 GPU 服务器闲置 CPU 与本地 NVMe 构建存储池,无需专用硬件,实现极致性价比;分离部署模式构建独立存储集群,适合超大规模 AI 工厂,实现存算资源的解耦扩容与统一精细化治理。
灵活部署形态灵活部署形态
无缝融入主流推理生态
  MeshFusion 不修改模型权重,不改变服务逻辑,以 “系统工程” 代替 “堆砌硬件”
推理服务兼容

推理服务兼容

vLLM, SGLang, NVIDIA Dynamo, LMDeploy

KVCache 框架适配

KVCache 框架适配

将热数据推到离 GPU 最近的地方,读延迟压至 20-30μs,单机吞吐达。

接口支持

接口支持

原生支持 POSIX, HDFS, S3,数据清洗与训练无需搬迁。

硬件支持

硬件支持

广泛适配 NVIDIA 及国产 GPU 算力卡(华为 Ascend、寒武纪等)

全场景赋能:从长文本分析到 Agentic AI

Agentic AI (AI 智能体)

场景

场景

代码生成、复杂任务规划。

价值

价值

持久化存储多轮对话的历史状态,无需重复计算,降低端到端延迟。

长文档分析 (Long Context)

场景

场景

法律合同审查、财报分析、书籍问答。

价值

价值

低成本承载 128K~1M+ 超长上下文,避免显存溢出 (OOM)。

多租户模型服务 (Model Serving)

场景

场景

云厂商 API 服务。

价值

价值

在有限的 GPU 显存中并发服务更多用户,提升 ROI。

XSKY MeshFusion 让 AI 记忆无限延伸
即刻申请,获 30 天免费使用
在线咨询
快速响应您的问题
工作日: 9:00 ~ 18:00
官方微信