1 / 68
文档名称:

分布式海量数据存储检索系统设计及实现.pdf

格式:pdf   页数:68页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

分布式海量数据存储检索系统设计及实现.pdf

上传人:1006108867 2015/12/8 文件大小:0 KB

下载得到文件列表

分布式海量数据存储检索系统设计及实现.pdf

文档介绍

文档介绍:西安电子科技大学
独创性(或创新性)声明
本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究
成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不
包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或
其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做
的任何贡献均已在论文中做了明确的说明并表示了谢意。
申请学位论文与资料若有不实之处,本人承担一切相关责任。

本人签名: 日期






西安电子科技大学
关于论文使用授权的说明
本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究
生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕
业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。
学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全
部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密的论文
在解密后遵守此规定)
本学位论文属于保密在年解密后适用本授权书。

本人签名: 日期

导师签名: 日期
摘要
摘要
随着当今社会信息化程度的提高,各行各业都面临着大规模的数据,这些数
据通常在上百 GB 甚至数十 TB 的级别,并且还在以飞快的速度增长,这些就是所
谓的海量数据。海量数据的存储和管理是当今的一个热点问题。
目前对于海量数据的管理主要有两种方式。一种是对传统的数据库,通过一
系列的切分规则使得数据水平分布到不同的数据库或表中,再通过相应的数据库
路由或者表路由规则找到需要查询的具体的数据库或者表,以进行查询操作。该
方案的缺点是架构复杂,实现以及应用程序的编写较为困难,并且难以维护。另
一种是基于分布式文件系统的 Key/Value 非关系型数据库,这种数据库降低了对事
务的要求,有高的性能和可用性,但是其缺点是难以构建复杂的查询逻辑。
本文提出了一种基于全文搜索引擎工具包 Lucene 的分布式海量数据存储检索
系统的设计及实现,针对结构化和半结构化数据,较好的实现了海量数据的分布
式存储,提供高效的数据加载与检索能力,并对用户提供类 SQL 语言的查询和
C/C++编程接口,而且在可扩展性和数据容错性上有出色的表现。

关键词:海量数据数据库分布式存储检索
Abstract
Abstract
With the improvement of the informatization of today's society, every walks of life
are facing with large-scale data, these data are usually in the hundreds of GB or even
several of terabytes of level, and still increasing with a high speed. These are called
mass data. The storage and management of massive data are ing a hot issue today.
There are two main ways for massive data’s management. By using of a traditional
database, making the data distributed to different databases or tables through a series of
segmentation rules, and then we are able to query the data by use database routing or
table routing rules. The ing of the system is plex architecture, difficult
for realization and applications and difficult to maintain. The other is based on a
distributed file system, we use a Key/Value-formed and non-relational database, it could
reduce transaction requirements, and has a high performanc