文档名称：

大数据实验室数据立方大数据库建设方案.doc

格式：doc 大小：623KB 页数：10页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

大数据实验室数据立方大数据库建设方案.doc

上传人:阿宝 2021/6/10 文件大小：623 KB

下载得到文件列表

大数据实验室数据立方大数据库建设方案.doc

相关文档

文档介绍

文档介绍：大数据实验室数据立方大数据库建设方案
数据立方简介
通过对MapReduce、并行数据库和两者的混合技术研究，南京xx大数据科技股份有限公司推出了实施云计算数据库－数据立方，该系统通过引入索引模块、并行执行架构以及读取本地磁盘的执行方式，使查询达到了实时完成、简单易用、高可靠安全的效能，使EB级的数据能够秒级处理，极大地提高了用户执行查询操作后的使用效率，不仅在查询和检索这部分数据的时候具有非常高的性能优势，数据立方还可以支持数据仓库存储、数据深度挖掘和商业智能分析等业务。
我们以B+树的结构建立了字段的索引，每个B+树结构的字段索引相当于一个数据平面，这样一个全局数据表与其多个重要字段的索引就组成了一个类似于立方体的数据组织结构，我们称之为“数据立方”。
数据立方示意图
数据立方是一种用于数据分析与索引的技术架构。它是针对大数据(big data)的处理利器，可以对元数据进行任意多关键字实时索引。通过云处理框架对元数据进行分析之后，可以大大加快数据的查询和检索效率。
数据立方架构设计
数据立方是凌驾于数据存储层和数据库系统之上的，通过云处理框架解析后，可以大大增加数据查询和检索等业务，可以让系统平台具备数据实时入库、实时查询、查询结果实时传输等优势。
数据立方架构图
数据立方（DataCube）的结构分为用户接口（SHELL、ODBC、JDBC等）、高效索引机制、SQL解析器、作业调度器、元数据管理、并行计算架构、分布式文件系统等部分。
用户接口主要有两个：ODBC/JDBC和Shell。JDBC主要执行数据的定义操作，即建立数据库、建表、建分区，对数据库、表和分区的删改等，同时可执行数据查询的SQL语句，暂不支持单条记录的增删改；数据立方提供友好的shell交互界面，shell支持数据库、表的增删改以及数据查询的SQL语句。数据在入库的同时与数据对应的索引也在同时建立，索引是一颗B树，数据插入到内存的同时，索引B树也在生成，当达到设置上限时，数据和索引会刷新到分布式文件系统上成为文件。数据立方的元数据存储在数据库中。其中包括，数据库的名字和属性，数据库中的表，表的名字，表的列和分区及其属性，表的属性，表的数据所在目录等等。SQL解析器接收从JDBC和SHELL传来的SQL查询语句，同时对SQL进行词法分析、语法分析、编译、优化。作业生成器根据SQL语法树生成查询作业，分析所要处理的数据表对应的索引文件的所在存储子节点位置，并将作业发送给并行计算架构。并行计算架构接收到作业生成器生成的作业，根据索引文件的位置切分查询作业形成子任务，然后将子任务发送给数据所在的存储子节点，每个节点执行这些子任务查询索引得到结果记录所在的数据文件名与偏移量，并以广播的方式发送查询子任务到数据文件所在的节点，在执行完毕后将结果返回。数据立方可以使用HDFS和cStor作为底层存储系统，cStor是一个主从结构的分布式文件系统，不仅具有HDFS的高吞吐率、高读写性能等特性，还支持HDFS所不具备的对文件修改等功能，并且支持POXIS接口。
数据立方分布式并行框架
分布式并行架构（DPCA）
数据立方的分布式并行架构（DPCA）是典型的主从结构，主Master与从Master分别部署在HDFS的主从NameNode物理节