文档介绍:浙江大学
硕士学位论文
基于Hadoop和Hama平台的并行算法研究
姓名:蔡大威
申请学位级别:硕士
专业:物理电子学
指导教师:杨建军
2013-03-09
摘要当前,随着牟欢戏⒄梗チM械氖莩氏直ㄐ缘脑龀ぁH绾对这些数据进行存储和处理成为新的挑战。处理大数据一般是使用性能较高的服务器或者是服务器集群。这一方案存在价格昂贵,扩展性差等缺点。因此越来越多的研究人员把目光投向并行计算和云计算。云计算对大数据的处理和挖掘有着天然的优势。本文正是以此为出发点,旨在对基于和云计算平台如何实现算法并行化进行研究。本文首先介绍了和云计算平台,和喑棠J降墓丶际酢V蠡谙钟械氖笛樽试创罱℉虷计算环境用于并行算法的实现与测试。本文重点是如何使用和云计算平台实现一些算法的并行化。许多基于迪值牟⑿兴惴ǘ际堑惴ǎ缥恼轮薪樯艿甿聚类算法,单源最短路径算法等。本文创新性地对这一类算法进行总结和归纳,得出了这一类算法的一般编程步骤,并对相关的数据存储方式的性能进行分析。基于喑棠J轿恼轮兄饕=樯芎褪迪至巳鏊惴ǎ杭扑銀/担笪和都有其自身的适用环境,本文分别对基于平台和平台实现的无向图连通分量算法进行理论分析和比较,最后通过实验对两者的性能进行对比,得出最后的结论。关键词:云计算,,,珺,并行计算,数据挖掘主要包括基于平台实现相关数据挖掘算法和图论算法的并行化,基于平台矩阵乘法的并行化,基于平台图论算法的并行化。向图的连通分量,单源最短路径算法。浙江大学硕士学位论文
,,..,琀琀琈,琩瑃瓸瓹甌.,.篶浙江大学硕士学位论文瓾瓼瑂甌瑆..
致谢硕士研究生学业即将结束,在这期间我在云计算与云存储方面的研究有了些许的收获。这两年半的经历是我一生的财富,我将终生不忘,心怀感激。首先,我要感谢我的导师杨建军老师。本科毕业设计的选题,在公司实习期间所做的项目,以及硕士期间的研究方向都是由杨老师确定的,正是杨老师对新技术的准确把握,我才不会迷茫不知所措。这些项目不仅让我学到了很多工程知师平易近人,和蔼可亲,更像长辈一样对我关怀备至,让我学会用乐观,热情的心态去面对学习,面对生活。我的成长离不开杨老师的帮助,在此我向杨老师表示衷心的感谢和敬意。其次我要感谢陈抗生老师,在研究生入学及以后的生活、学习上给予无私的关怀与帮助,谢谢您。再次我要感谢我的家人和亲戚朋友。感谢家人的默默付出,在各方面给予我毫无保留的关爱和支持;感谢实验室的张亦倩师姐,楼飞、胡国栋师兄,单旦骏师弟,和你们在一起学习和讨论让我不断进步;感谢室友翁健、王锦金的陪伴,和睦的寝室氛围让我有家的感觉,让我的生活不再单调与孤单。最后,感谢和我共同度过这两年半生活的所有人,祝愿他们健康幸福。识,锻炼了自己的编程能力,也让我在找工作的过程中受益匪浅。生活上,杨老蔡大威年浙江大学硕士学位论文
第一章绪论课题研究背景和意义储,主要的存储模式有蚐。单一机器对大规模数据的处理已经远远不能满足我们的要求。为了解决这一问题,云存储和云计算应运而生。云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务【¨。目前主要的云计算服务云计算的三大核心技术:琈,成为处理大数据的利器。的对的技术做了一个开源的实现。目前大多数的算法对于处理的数据有一定的限制,面对大规模的数据往往效果很差,甚至束手无策。主要表现在以下两个方面:览的诖娴乃惴ǎ盒枰=械氖荻寥肽诖妫缓蟛拍芏允萁相关操作,比如传统的单源最短路径算法。数据量过大时,全读入内存是不切实兴惴ǎ旱ヒ换鞔写硭械氖荨6杂诖笫萘浚蘼凼荌/密集型,还是芗停ヌɑ鞔硭械氖菪适堑拖碌模奔涫侨长的。漫长的处理时间导致更大的错误出现几率,如果在处理中的某一阶段,机器由于某种原因宕机馔耆怯锌赡艿,那么一切计算都要重新开始,这就浪费了很多的计算资源和时间。基于的云计算不仅可以很好地解决上述问题,还有着如下的优势。跎俣猿都扑慊囊览怠P⌒突踔罰伎梢苑诺紿募当前,随着的不断发展,互联网中的数据呈现爆炸性的增长。如何对这些数据进行存储和处理成为新的挑战。之前对数据的存储主要是基于网络存有四家:,琈,。其中以的云计算最具有代表性和研究应用价值。已经被,瑃俣龋员Φ绕笠倒惴翰渴鹩τ谩F渲⑿屑扑憧蚣芪4笫莸耐诰虼硖峁┝艘桓隽己玫慕饩龇桨浮际的。浙江大学硕士学位论文
国内外的研究现状本文的主要工作中,大量普通机器的集群计算来满足超级计算机的计算需求。对于某些大数据,当超级计算机都不能处理时,集群超级计算机成为解决方案。嗵ɑ鞑⑿写恚跎偌扑闶奔洹C刻ɑ鞣直鸲寥〈硪徊糠质荩嘲粜浴5奔褐幸惶ɑ麇椿馓ɑ鞯募扑闳挝窕岜恢匦路峙涞别的机器,其它机器对坏死的机器是完全透明的,已计算部分完全不会受到影响,增加集群中的机器就可以了。T吹姆奖阈浴茿目T聪钅