XScale 非结构化元数据引擎

打破集群的边界,支撑 EB 级数据的 AI 数据湖基座
Banner

XScale 非结构化元数据引擎

打破集群的边界,支撑 EB 级数据的 AI 数据湖基座
Banner
业界痛点
随着企业非结构化数据占据企业数据增量的 80% 以上,非结构化存储规模已经跨越 TB 到 PB 级别,而一部分用户正在迈向 EB 时代,传统分布式存储架构面临“基因层面”的缺陷:
元数据架构的“天花板”
传统基于哈希环或文件目录树映射的元数据管理方式,在面对百亿/千亿级小文件时,检索与枚举(List)性能急剧下降,成为的瓶颈。
元数据架构的“天花板”
数据治理的“盲区”
由于缺乏高效的内部索引机制,海量数据存储后难以根据业务属性(如访问热度、标签)进行精细化筛选和流动,导致昂贵的高性能存储被冷数据占满。
数据治理的“盲区”
一致性与并发难题
在高并发读写场景下,传统架构往往需要在性能与数据强一致性之间做妥协,难以同时满足高吞吐和数据准确性的双重需求。
一致性与并发难题
冷数据元数据的“成本黑洞”
大量长尾对象的扩展属性长期占用非结构化元数据的存储成本,使容量、索引管理、备份恢复成本持续上升。
冷数据元数据的“成本黑洞”
XScale 架构
作为业内领先的分布式存储公司,在大规模非结构化存储领域具有近 10 年的丰富经验和技术积累,XSKY 自主研发了新一代内嵌 KV 存储内核的分布式对象引擎 XScale。

对象元数据语义层

作为系统的顶层业务逻辑中心,直接面向 S3 网关应用提供对象元数据服务。在内部处理机制上,引擎集成了对象分块与数据处理模块,提供小文件归并能力,并配备了包括数据流引擎、智能分层归档及生命周期管理在内的丰富后台服务,从而实现了从数据的高性能写入到自动化治理的全流程管理。

分布式事务协调层

XScale 架构的核心竞争力在于其基于 KV 的 ACID 事务语义构建了对象元数据事务引擎。不同于传统对象存储对最终一致性的妥协,该系统通过原子事务机制将上层业务逻辑与底层存储紧密耦合。所有的元数据变更均被封装为原子操作下发,这种设计确保了在复杂的分布式并发环境下,系统依然能够维持严格的数据一致性和逻辑完整性,有效规避了元数据错乱或丢失的风险。

分布式 KV 引擎

架构基石是由分布式 KV 引擎构成的持久化存储层,该层对外提供支持丰富的 KV 接口能力。它不仅承担了基础的数据读写(Get/Set)与范围查询功能。通过底层的事务日志协调与线性的 KV 节点分片架构,该引擎在保障数据 ACID 特性的同时,实现了存储容量与吞吐性能的线性可扩展性。
对象元数据语义层
分布式事务协调层
分布式 KV 引擎

对象元数据语义层

作为系统的顶层业务逻辑中心,直接面向 S3 网关应用提供对象元数据服务。在内部处理机制上,引擎集成了对象分块与数据处理模块,提供小文件归并能力,并配备了包括数据流引擎、智能分层归档及生命周期管理在内的丰富后台服务,从而实现了从数据的高性能写入到自动化治理的全流程管理。
对象元数据语义层

分布式事务协调层

XScale 架构的核心竞争力在于其基于 KV 的 ACID 事务语义构建了对象元数据事务引擎。不同于传统对象存储对最终一致性的妥协,该系统通过原子事务机制将上层业务逻辑与底层存储紧密耦合。所有的元数据变更均被封装为原子操作下发,这种设计确保了在复杂的分布式并发环境下,系统依然能够维持严格的数据一致性和逻辑完整性,有效规避了元数据错乱或丢失的风险。
分布式事务协调层

分布式 KV 引擎

架构基石是由分布式 KV 引擎构成的持久化存储层,该层对外提供支持丰富的 KV 接口能力。它不仅承担了基础的数据读写(Get/Set)与范围查询功能。通过底层的事务日志协调与线性的 KV 节点分片架构,该引擎在保障数据 ACID 特性的同时,实现了存储容量与吞吐性能的线性可扩展性。
分布式 KV 引擎
XScale 的独特性
这种“元数据内嵌 KV 引擎”的架构设计,赋予了 XScale 区别于传统对象存储的独特基因:
原生的 ACID 事务语义原生的 ACID 事务语义

原生的 ACID 事务语义

基于内嵌事务型 KV 内核,将对象上传、属性修改或目录重命名等操作转化为分布式事务。确保在高并发或宕机异常下,元数据具备数据库级强一致性,告别最终一致性困扰。

丰富的索引能力丰富的索引能力

丰富的索引能力

将对象元数据“扁平化”存储在内部 KV 引擎中,支持像文件系统一样按路径访问。同时可针对千亿级对象的 Tag、访问时间等特定字段进行高效排序与检索。

弹性的 KV 扩展弹性的 KV 扩展

弹性的 KV 扩展

分布式 KV 引擎集群随存储节点扩容而横向扩展,性能也随之增长,保证了元数据性能与存储容量的线性同步增长,避免出现“容量充足但慢得无法使用”的弊端。

元数据冷热分层元数据冷热分层

元数据冷热分层

支持将热元数据保留在 KV 引擎中,冷元数据归档到底层数据池,只保留轻量标记,使 KV 引擎不再长期承载冷数据元信息压力,从根本上优化元数据层 TCO。

性能和功能亮点
万亿级对象扩展能力
支持千亿级单桶对象管理,系统整体可轻松扩展至万亿级对象的超大规模。通过分布式架构消除元数据单点瓶颈,确保 List/Put/Get 性能的稳定,不随数据量增加而抖动,在海量非结构化数据场景下保持一致高效的访问体验。
万亿级对象扩展能力万亿级对象扩展能力
智能数据流动引擎
数据的分层迁移不再需要外部扫描程序。XScale 利用 KV 的 Range Scan(范围扫描) 能力,可以根据策略识别冷热数据,并驱动数据在 NVMe(热)、HDD(温)、蓝光/磁带/公有云(冷)之间自动流转。
智能数据流动引擎智能数据流动引擎
小文件归并
针对非结构化存储的海量小文件场景,XScale 接入层将其聚合为大块写入,并在内部 KV 引擎中记录每个小文件的 <Offset, Length> 映射。这既保证了 HDD 的顺序写性能,又保留了每个小文件的独立寻址能力,读写效率提升数倍。
小文件归并小文件归并
极速生命周期管理
利用 KV 内核的高效查询,XScale 执行生命周期策略(如过期删除、转冷)的速度比传统文件系统遍历快几个数量级,真正做到了 EB 级数据的“管得住”。
极速生命周期管理极速生命周期管理
冷数据元数据归档
支持将冷对象的“元数据”从 KV 引擎转储到低成本的数据池,显著降低冷对象的元数据存储占用,降低综合成本。
冷数据元数据归档冷数据元数据归档
XEOS:基于 XScale 的分布式对象存储系统
XEOS 通过采用 XScale 的分布式事务型 KV 内核,在可扩展性、检索治理能力与稳定性方面实现了整体代际升级,成为更加智能、高效的对象存储系统。
海量对象的稳定管理能力
  • 支持千亿级单桶、万亿级系统规模,索引性能随节点线性扩展。
  • List / Put / Get 性能在大规模下保持稳定,无传统对象存储的抖动与下降。
多维元数据利用与数据治理增强
  • 基于 Tags、User Metadata、atime 等字段实现对象生命周期管理。
  • 内核级冷热识别提高生命周期策略(ILM)执行效率,无需外部扫描服务。
小文件友好:AI 训练加速
  • 依托 XScale 的偏移映射能力,小文件聚合写入并保持独立寻址。
  • 无论是 NVMe 还是 HDD 上,都显著提升训练样本的读取吞吐。
数据湖与 AI 工作负载友好
  • 加速 Iceberg / S3 Table 等元数据访问场景,为计算与分析型数据湖提供高效底座。
  • 更适配 AI 训练对小文件、高吞吐、多并行访问模式的需求。
查看详情
XEOS 架构示意图
数据常青,智领未来
即刻申请,获 30 天免费使用
在线咨询
快速响应您的问题
工作日: 9:00 ~ 18:00
官方微信