1 / 77
文档名称:

基于RDBMS的海量结构化数据存储处理平台设计和实现.pdf

格式:pdf   页数:77页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于RDBMS的海量结构化数据存储处理平台设计和实现.pdf

上传人:beny00011 2016/2/5 文件大小:0 KB

下载得到文件列表

基于RDBMS的海量结构化数据存储处理平台设计和实现.pdf

相关文档

文档介绍

文档介绍:南开大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:汪黎2013年5月23日非公开学位论文标注说明(本页表中填写内容须打印)根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本说明为空白。论文题目申请密级口限制(≤2年)口秘密(≤10年)口机密(≤20年)保密期限20年月日至20年月日审批表编号批准日期20年月日南开大学学位评定委员会办公室盖章(有效)注:限制★2年(可少于2年):秘密★10年(可少于10年):机密★20年(可少于20年)摘要摘要随着信息技术的快速发展,人们获取和产生数据的方式越来越先进,越来越多的结构化数据被存储下来,数据量达到了TB级别,甚至PB级别,这些数据具有规模大、处理速度快、蕴含价值高等特点,国际上已经有相关的海量结构化数据处理技术,但国内技术并不成熟,实现海量结构化数据的分析处理,有利于推动国内大数据技术的发展。本文通过分析当前主流的大数据技术,包括大规模横向扩展的数据库技术、分布式文件系统HDFS和MapReduce数据处理技术、可扩展的NoSQL技术、面向特定应用的分布式索引和检索技术、并行数据处理技术以及主流的大数据处理产品,提出了适用于海量结构化数据存储和查询的处理方案一一XSDP(StructuredDataProcessing,X有eXtense、eXtreme、eXecutive及“未知”的意思)平台,主要包括支持在线动态扩展的数据存储划分技术、海量数据处理并行任务流技术、用户自定义任务流技术、海量结构化数据的关联和嵌套查询技术。其中数据存储采用分级存储和多种划分方式,分级存储实现了性能与成本的兼顾,数据表以复制或分区方式存储于节点组中,、Hash、Range、List四种,实现数据的负载均衡以及实现最小数据迁移量的动态扩展;并行处理任务流技术通过对类SQL语句的解析,形成更小粒度的计算算子,从而实现任务的并行执行及海量结构化数据的关联和嵌套查询技术,同时任务流采用可读文本方式,用户可通过文本编辑器实现自定义任务流。该平台已经初步应用于上海某公司,负责将每日产生的数据导入系统并进行分析,,目前己存储约400TB数据量,并完成对该部分数据进行各种统计、关联、过滤等类别的查询,目前系统运行正常,并能够满足查询需求。关键词大数据,海量数据,分布式查询,任务流,分区存储AbstractWiththedeVelopmentofinformationtechnology,emoreadvanced,andmorestructureddataisstored,theamountofdataachjeVesthelevelofTBorevenPB,thisdatawitchislarge·seale,highprocessmgspeedrequired,containinghighvalue,canbeprocessedbysomemaSslVestmctureddataprocessingtechnology,butthetechnologyisnotmature·masslVemsteehnologyisconducivetopromotingthedevelopmentofdomestlcblg。,byanalyzingthecurrentmainstreambig。datatechnologies,incl讹glarge-,distributedfilesyst锄HDFsandMapReducedataprocessingtechnology,scalableNoSQLtechnology,,paralleldataprocessingtechnologyrese砌aswellasmainstreamdataprocessmgProducts,thepaperpresentsamassivestructureddatastorageandqueryprocesslngpro伊锄—一XSDP,includingdatast