文档名称：

基于MapReduce并行文本聚类.pdf

格式：pdf 页数：62页

下载后只包含 1 个 PDF 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

基于MapReduce并行文本聚类.pdf

上传人:cxmckate1 2016/1/28 文件大小：0 KB

下载得到文件列表

基于MapReduce并行文本聚类.pdf

相关文档

文档介绍

文档介绍：学位论文独创性声明本人声明兹呈交的学位论文是本人在导师指导下完成的研究成果。论文写作中不包含其他人已经发表或撰写过的研究内容,如参考他人或集体的科研成果,均在论文中以明确的方式说明。本人依法享有和承担由此论文所产生的权利和责任。论文作者签名:签名日期:学位论文版权使用授权声明本人同意授权华侨大学有权保留并向国家机关或机构送交学位论文的复印件和电子版,允许学位论文被查阅和借阅。本人授权华侨大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。论文作者签名:指导教师签名:签名日期:签名日期:万方数据摘要I摘要文本聚类是一项具有重要应用价值的研究,在一些应用领域中,文本聚类需要处理的数据规模正在以非常快的速度增大。处理大规模数据需要采用高效的大规模数据分析技术,传统的串行编程模型在可扩展性上存在严重不足,无法满足大规模数据处理对计算资源和存储资源的需求。以MapReduce为代表的分布式计算技术具备了良好的扩展性,能够极大地提高数据密集型算法的执行效率、充分发挥基于普通硬件的计算集群的计算能力。MapReduce分布式计算框架的出现极大地降低了并行计算的门槛,同时MapReduce编程模型又以自身优秀的架构设计成为大数据处理技术的不二选择。为了利用MapReduce分布式计算框架解决传统的层次聚类算法在处理大规模语料数据时可扩展性不足的问题,本文提出基于MapReduce编程模型的并行文本层次聚类算法。传统的层次聚类算法针对串行编程模型进行设计,因此将层次聚类算法并行化时,需要考量串行编程模型与分布式编程模型之间的差异,充分利用分布式计算平台的特性来设计并行层次聚类算法,以下是本文主要研究内容的简单概括:1)对MapReduce分布式计算框架进行深入的研究,包括MapReduce的数据分发策略、排序特性、将传统的串行算法移植到MapReduce编程模型的必要条件。针对MapReduce最重要的开源实现Hadoop中的关键模块进行了详细的分析。2)对文本聚类过程中涉及到的关键技术的MapReduce并行化进行深入分析,重新设计包括文本分词、特征选择、特征权重计算在内的文本向量化关键步骤,为整个文本聚类过程的MapReduce并行化奠定基础。3)针对文本层次聚类算法很难实现计算并行的问题,提出基于数据划分的并行文本层次聚类算法,解决了文本层次聚类算法的并行化。并行文本层次聚类将数据划分引入传统的层次聚类算法,合理地利用了MapReduce编程模型的排序特性及二次排序技术来高效地选取合并点。数据划分算法采用基于文本向量分量组特征统计的垂直划分算法,该算法简单高效,可以有效地进行大规模万方数据华侨大学博士(或硕士)学位论文II数据的快速划分。4)编程实现这些关键步骤的相关算法,并针对两个不同的数据集进行实验。为了进行实验,搭建一个小型的Hadoop集群,然后通过五个主要实验来验证算法的聚类精度及并行性能,并探讨了一些重要参数的配置及数据集的输入方式对算法的影响。实验结果表明,基于MapReduce的并行文本聚类算法可以有效地进行大规模文本的聚类,同时又具有良好的可扩展性。关键字:文本聚类层次聚类数据划分MapReduce并行计算万方数据AbstractIIIAbstractText clustering is a research of important application, in some application area, the size of data processedby text clustering is growing at a very fast speed. Large-scale data need an efficient large-scale data analysis traditional sequential programming model is a serious lack of scalability, therefore, it can’t satisfy the large-scale data processing demand puting resources and storage resources. puting technology represented by MapReduce can greatly improve the efficiency of data-intensive algorithms and make full use of the ability puting clusters tha