1 / 56
文档名称:

基于mapreduce的可扩展协同聚类算法研究与实现.pdf

格式:pdf   页数:56页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于mapreduce的可扩展协同聚类算法研究与实现.pdf

上传人:2982835315 2014/6/27 文件大小:0 KB

下载得到文件列表

基于mapreduce的可扩展协同聚类算法研究与实现.pdf

文档介绍

文档介绍:独创性声明学位论文版权使用授权书作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权江西师范大学研究生院C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ本人声明所呈交的学位论文是本人在导师指导下进行的研究工为获得或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:签字日期:年月本学位论文作者完全了解江西师范大学研究生院有关保留、使用可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。导师签名:日
摘要位。人们在处理数据时,经常遇到一些没有标签的数据,而人们往往需要了解这些数据间的关系,以便应用到实际情况中。为了解决这类问题,聚类算法应运而数据用向量空间模型表示,它把数据放在了一个向量空间中,通过距离的远近来判断数据间的相关性。然而,这类算法通过数据本身的维度来度量聚类的效果,忽略了数据内部的相关性,即本文中的特征的相关性。为此,本文研究了基于数此庞大的数据,原来的串行算法已不能满足人们对算法速度和准确率的要求,于是人们逐渐把眼光转向并行计算。随着计算机硬件的发展,并行在多核的单机上也可以实现。然而这些并行模式大多是基于机器本身的,在面对规模越来越庞大本文在研究协同聚类算法的过程中,采用喑棠J蕉孕劾算法进行改进。在实验室中利用搭建的荷显诵胁⑿行聚类算法,该算法是基于最小化协同残差平方和的目标函数设计。文中通过实验文本聚类作为数据挖掘领域的主要分支之一,在许多领域占据了重要的地生。它是~种无监督的学****算法,通过主动学****数据内部的结构,分析出数据的类别属性,将相关的数据聚集到一起,不相关的数据分开,达到人们需要的结果。由于数据的表现形式多种多样,聚类的算法也是种类繁多的。在文本聚类中据和特征两个维度的协同聚类算法,发现该算法能取得比单一维度聚类更好的聚类效果。随着信息技术的高速发展,海量数据、大数据的概念变得耳熟能详,面对如的海量数据时,无法在单机上完成数据的并行计算。与此同时,提出的⑿心J剑茉谄胀ㄉ逃没魃喜渴鸺海哂薪∽承郧浚咨焖醯优点,受到广大并行计算研究者的欢迎。的运算时间和加速比验证了算法的可扩展性。关键词:文本聚类;协同聚类;恍胁钇椒胶停豢衫┱剐
,甒琣甒猄,篢;籆籗,.琾,.琧甀畆,,’.,.甀,,甤瓾,.琲瓵,.疭甌;
目录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。评价指标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.浴研究背景及研究意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.论文组织⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.谋揪劾唷文本聚类概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯均值算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.聚类算法评价指标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...慷⋯⋯.嫉轮甘⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.并行编程模式⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..合⒋ǖ萁涌凇喑棠J健骸蚪椤简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..桓鯩的实例——倒排索引⋯⋯⋯⋯⋯⋯⋯.本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯贛的协同聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..协同聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..蚣堋基于牟⑿行劾嗨惴狢⋯⋯..本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一..笛橛虢峁治觥实验环境和数据集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.芙嵊胝雇总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..后续工作与展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..
参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.在学期间公开发表论文及科研情况⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..致
引言研究背景及研究意义“物以类聚,人以群分’’是在现实世界中常见的一种现象,而在数字信息领域,聚类现象也同样在存在。通过对数据进行聚类分析,我们可以将数据划分成不同的簇,这些信息对解决实际的应用问题具有很大的帮助。如,通过对大量的图书进行聚类,分析出图书的分类结构,发展成了比较统一的图书分类体存在聚类问题,如何摆放货物使得消费者能够快速方便的找到所需的商品,几乎所有的超市都会对商品进行分类摆放,消费者可以从按类别查找需要购买的商品,然而在今年来的研究中发现,消费者购买的商品具有某些规律性,针对这些规律调整商品的摆