1 / 66
文档名称:

分布式海量数据存储检索系统设计和实现.pdf

格式:pdf   页数:66页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

分布式海量数据存储检索系统设计和实现.pdf

上传人:beny00011 2016/1/7 文件大小:0 KB

下载得到文件列表

分布式海量数据存储检索系统设计和实现.pdf

文档介绍

文档介绍:西安电子科技大学独创性(或创新性)声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:日期西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密的论文在解密后遵守此规定)本学位论文属于保密在年解密后适用本授权书。本人签名:日期导师签名:日期摘要摘要随着当今社会信息化程度的提高,各行各业都面临着大规模的数据,这些数据通常在上百GB甚至数十TB的级别,并且还在以飞快的速度增长,这些就是所谓的海量数据。海量数据的存储和管理是当今的一个热点问题。目前对于海量数据的管理主要有两种方式。一种是对传统的数据库,通过一系列的切分规则使得数据水平分布到不同的数据库或表中,再通过相应的数据库路由或者表路由规则找到需要查询的具体的数据库或者表,以进行查询操作。该方案的缺点是架构复杂,实现以及应用程序的编写较为困难,并且难以维护。另一种是基于分布式文件系统的Key/Value非关系型数据库,这种数据库降低了对事务的要求,有高的性能和可用性,但是其缺点是难以构建复杂的查询逻辑。本文提出了一种基于全文搜索引擎工具包Lucene的分布式海量数据存储检索系统的设计及实现,针对结构化和半结构化数据,较好的实现了海量数据的分布式存储,提供高效的数据加载与检索能力,并对用户提供类SQL语言的查询和C/C++编程接口,而且在可扩展性和数据容错性上有出色的表现。关键词:海量数据数据库分布式存储检索AbstractAbstractWith the improvement of the informatizationof today's society, everywalks of life are facingwith large-scale data, these data are usually in the hundreds of GB or even severalof terabytes of level, and still increasing with a highspeed. These are called mass data. The storage and management of massive data ing a hot issue are two main ways for massive data’ of atraditional database, making the data distributed to different databases or tablesthrough a series of segmentation rules, and thenwe areable to query the data by use database routing or table routing rules. The ingof the systemis a complex architecture, difficultfor realization and applications and difficult to maintain. The other is based on adistributed file system,we use a Key/Value-formed andnon-relational database, itcouldreduce transaction requirements, and has a high performance and availability,but the drawback is difficult to build plex query paper presents the design and implementation