XScale 非结构化元数据引擎

打破集群的边界，支撑 EB 级数据的 AI 数据湖基座

XScale 非结构化元数据引擎

打破集群的边界，支撑 EB 级数据的 AI 数据湖基座

业界痛点

随着企业非结构化数据占据企业数据增量的 80% 以上，非结构化存储规模已经跨越 TB 到 PB 级别，而一部分用户正在迈向 EB 时代，传统分布式存储架构面临“基因层面”的缺陷：

元数据架构的“天花板”

传统基于哈希环或文件目录树映射的元数据管理方式，在面对百亿/千亿级小文件时，检索与枚举（List）性能急剧下降，成为的瓶颈。

元数据架构的“天花板”

数据治理的“盲区”

由于缺乏高效的内部索引机制，海量数据存储后难以根据业务属性（如访问热度、标签）进行精细化筛选和流动，导致昂贵的高性能存储被冷数据占满。

数据治理的“盲区”

一致性与并发难题

在高并发读写场景下，传统架构往往需要在性能与数据强一致性之间做妥协，难以同时满足高吞吐和数据准确性的双重需求。

一致性与并发难题

冷数据元数据的“成本黑洞”

大量长尾对象的扩展属性长期占用非结构化元数据的存储成本，使容量、索引管理、备份恢复成本持续上升。

冷数据元数据的“成本黑洞”

XScale 架构

作为业内领先的分布式存储公司，在大规模非结构化存储领域具有近 10 年的丰富经验和技术积累，XSKY 自主研发了新一代内嵌 KV 存储内核的分布式对象引擎 XScale。

对象元数据语义层

作为系统的顶层业务逻辑中心，直接面向 S3 网关应用提供对象元数据服务。在内部处理机制上，引擎集成了对象分块与数据处理模块，提供小文件归并能力，并配备了包括数据流引擎、智能分层归档及生命周期管理在内的丰富后台服务，从而实现了从数据的高性能写入到自动化治理的全流程管理。

分布式事务协调层

XScale 架构的核心竞争力在于其基于 KV 的 ACID 事务语义构建了对象元数据事务引擎。不同于传统对象存储对最终一致性的妥协，该系统通过原子事务机制将上层业务逻辑与底层存储紧密耦合。所有的元数据变更均被封装为原子操作下发，这种设计确保了在复杂的分布式并发环境下，系统依然能够维持严格的数据一致性和逻辑完整性，有效规避了元数据错乱或丢失的风险。

分布式 KV 引擎

架构基石是由分布式 KV 引擎构成的持久化存储层，该层对外提供支持丰富的 KV 接口能力。它不仅承担了基础的数据读写（Get/Set）与范围查询功能。通过底层的事务日志协调与线性的 KV 节点分片架构，该引擎在保障数据 ACID 特性的同时，实现了存储容量与吞吐性能的线性可扩展性。

对象元数据语义层

分布式事务协调层

分布式 KV 引擎

对象元数据语义层

作为系统的顶层业务逻辑中心，直接面向 S3 网关应用提供对象元数据服务。在内部处理机制上，引擎集成了对象分块与数据处理模块，提供小文件归并能力，并配备了包括数据流引擎、智能分层归档及生命周期管理在内的丰富后台服务，从而实现了从数据的高性能写入到自动化治理的全流程管理。

对象元数据语义层

分布式事务协调层

XScale 架构的核心竞争力在于其基于 KV 的 ACID 事务语义构建了对象元数据事务引擎。不同于传统对象存储对最终一致性的妥协，该系统通过原子事务机制将上层业务逻辑与底层存储紧密耦合。所有的元数据变更均被封装为原子操作下发，这种设计确保了在复杂的分布式并发环境下，系统依然能够维持严格的数据一致性和逻辑完整性，有效规避了元数据错乱或丢失的风险。

分布式事务协调层

分布式 KV 引擎

架构基石是由分布式 KV 引擎构成的持久化存储层，该层对外提供支持丰富的 KV 接口能力。它不仅承担了基础的数据读写（Get/Set）与范围查询功能。通过底层的事务日志协调与线性的 KV 节点分片架构，该引擎在保障数据 ACID 特性的同时，实现了存储容量与吞吐性能的线性可扩展性。

分布式 KV 引擎

XScale 的独特性

这种“元数据内嵌 KV 引擎”的架构设计，赋予了 XScale 区别于传统对象存储的独特基因：

原生的 ACID 事务语义

原生的 ACID 事务语义

原生的 ACID 事务语义

基于内嵌事务型 KV 内核，将对象上传、属性修改或目录重命名等操作转化为分布式事务。确保在高并发或宕机异常下，元数据具备数据库级强一致性，告别最终一致性困扰。

丰富的索引能力

丰富的索引能力

丰富的索引能力

将对象元数据“扁平化”存储在内部 KV 引擎中，支持像文件系统一样按路径访问。同时可针对千亿级对象的 Tag、访问时间等特定字段进行高效排序与检索。

弹性的 KV 扩展

弹性的 KV 扩展

弹性的 KV 扩展

分布式 KV 引擎集群随存储节点扩容而横向扩展，性能也随之增长，保证了元数据性能与存储容量的线性同步增长，避免出现“容量充足但慢得无法使用”的弊端。

元数据冷热分层

元数据冷热分层

元数据冷热分层

支持将热元数据保留在 KV 引擎中，冷元数据归档到底层数据池，只保留轻量标记，使 KV 引擎不再长期承载冷数据元信息压力，从根本上优化元数据层 TCO。

性能和功能亮点

万亿级对象扩展能力

支持千亿级单桶对象管理，系统整体可轻松扩展至万亿级对象的超大规模。通过分布式架构消除元数据单点瓶颈，确保 List/Put/Get 性能的稳定，不随数据量增加而抖动，在海量非结构化数据场景下保持一致高效的访问体验。

万亿级对象扩展能力

万亿级对象扩展能力

智能数据流动引擎

数据的分层迁移不再需要外部扫描程序。XScale 利用 KV 的 Range Scan（范围扫描）能力，可以根据策略识别冷热数据，并驱动数据在 NVMe（热）、HDD（温）、蓝光/磁带/公有云（冷）之间自动流转。

智能数据流动引擎

智能数据流动引擎

小文件归并

针对非结构化存储的海量小文件场景，XScale 接入层将其聚合为大块写入，并在内部 KV 引擎中记录每个小文件的 <Offset, Length> 映射。这既保证了 HDD 的顺序写性能，又保留了每个小文件的独立寻址能力，读写效率提升数倍。

小文件归并

小文件归并

极速生命周期管理

利用 KV 内核的高效查询，XScale 执行生命周期策略（如过期删除、转冷）的速度比传统文件系统遍历快几个数量级，真正做到了 EB 级数据的“管得住”。

极速生命周期管理

极速生命周期管理

冷数据元数据归档

支持将冷对象的“元数据”从 KV 引擎转储到低成本的数据池，显著降低冷对象的元数据存储占用，降低综合成本。

冷数据元数据归档

冷数据元数据归档

XEOS：基于 XScale 的分布式对象存储系统

XEOS 通过采用 XScale 的分布式事务型 KV 内核，在可扩展性、检索治理能力与稳定性方面实现了整体代际升级，成为更加智能、高效的对象存储系统。

海量对象的稳定管理能力

支持千亿级单桶、万亿级系统规模，索引性能随节点线性扩展。
List / Put / Get 性能在大规模下保持稳定，无传统对象存储的抖动与下降。

多维元数据利用与数据治理增强

基于 Tags、User Metadata、atime 等字段实现对象生命周期管理。
内核级冷热识别提高生命周期策略（ILM）执行效率，无需外部扫描服务。

小文件友好：AI 训练加速

依托 XScale 的偏移映射能力，小文件聚合写入并保持独立寻址。
无论是 NVMe 还是 HDD 上，都显著提升训练样本的读取吞吐。

数据湖与 AI 工作负载友好

加速 Iceberg / S3 Table 等元数据访问场景，为计算与分析型数据湖提供高效底座。
更适配 AI 训练对小文件、高吞吐、多并行访问模式的需求。

XEOS 架构示意图

数据常青，智领未来

即刻申请，获 30 天免费使用

售前

工作日: 9:00 ~ 18:00

售后

在线咨询

快速响应您的问题

工作日: 9:00 ~ 18:00

官方微信