1 / 5
文档名称:

解析结构化数据存储检索系统.doc

格式:doc   页数:5页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

解析结构化数据存储检索系统.doc

上传人:wuxwivg046 2015/8/28 文件大小:0 KB

下载得到文件列表

解析结构化数据存储检索系统.doc

文档介绍

文档介绍:解析结构化数据存储检索系统
摘要:随着时代的发展和科技的进步,近些年来,在云计算领域内,逐渐出现了一种新型的数据,那就是Big Data,这样在对其存储和检索的时候就不能继续采用传统的关系型数据库系统;虽然可以采用分布式No-SQL来进行存储,但是有一些功能依然无法实现。针对这种情况,本文提出了结构化数据存储检索系统,也就是俗称的MDSS。本文对结构化数据存储检索系统进行了简要的分析,希望可以提供一些有价值的参考意见。
【关键词】数据库检索存储
1 MDSS系统工作原理
大数据集要求更高的数据检索效率,在数据加载以及数据存储方面都提出了很高的要求,目前,通常采用的办法是依据多机协同的分布式存储环境,实现系统处理效率提高的目的。
通常情况下,可以将MDSS分布式系统分为四个方面,分别是加载机集群、查询机集群、元数据节点集群以及存储节点集群。具体来讲,包括这些方面的内容:
加载机集群:加载机集群以进程为单位,它存在于整个系统中,发挥的功能是数据加载,可以将很多的客户端同时加载在多台设备上,通过并发加载,系统整体的加载效率就可以得到有效的提高。在MDSS中,近期入库的数据会同时缓存进加载集群,然后经过一段时期,千兆Ethernte就会在相关的存储装置中储存这些数据信息。
查询机集群:通过查询机集群,可以让用户的查询行为变得更加的方便,只需要从查询机上发出查询指令,查询机将查询任务分发给各个存储节点,依据的是元数据节点集群保存的元数据信息,最后对这些存储节点返回的查询结果进行汇总,用户接收到的是汇总结果。
存储节点集群:通过存储节点集群,可以长期的储存那些历史数据,对数据源进行分块存储,数据分块单位很好理解,指的是集群中的部分数据,它是加载机一次或者多次刷新过来的。
元数据节点集群:元数据节点集群也具有十分重要的作用,它不仅可以对整个集群的工作进行分配和管理,还可以有效的保存那些系统工作所需求的各种元数据信息。元数据节点集群存储的元数据包括很多方面的内容,比如数据节点状态信息、表空间元数据、索引分片具体的存储位置信息以及每个表空间内的一些辅助信息等等。
2 MDSS数据模型与结构
数据模型:MDSS将二维表空间数据管理模型提供给用户,以记录为单位,有很多的字段或属性存在于记录内,表空间在对这些字段类型描述的时候利用的是表结构。表结构文件来描述数据类型,在对表空间进行创建时,表结构文件会同时生成,存在于元数据节点集群中。
MDSS还设计了一种数据统计和分析语言,它在单表空间内面向流记录有着较强的针对性,语法规则等同于标准的SQL,但是标准SQL中的一些复杂的检索功能被取消了,比如关联查询功能、嵌套查询功能、视图功能等等。
数据存储组织结构:采用列存储结构的方式来在存储节点中存储数据,在存储是依据字典排序来排序字段值,在文件的不同位置来分别保存不同字段,如果数据达到了一定的长度,那么在保存的时候就可以设置为单独的文件,这种数据被称之为分片。以分片为单位来进行并发检索和分布存储,通常情况下,分片指的是集群中接收到加载机刷新过来的数据源。
将块内索引引入到每一个分片内,可以对索引分块内部不同字段属性数据的具体存储位置进行标记,通常会使用固定大小空间存储索引块,这样就可以在内存中将数据统计一次性进行;因为存储的