文档介绍:搭建基于云计算的海量数据挖掘平台-研究实现搭建基于云计算的开源海量数据挖掘平台赵华茗(中国科学院国家科学图书馆北京100190)【摘要】本文通过分析亚马逊弹性MapReduce(EMR)平台构架,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术XEN和Hadoop平台构建基于云计算的动态可伸缩的海量数据处理平台并给出了实施方案、海量文本数据处理案例和开源EMR平台的优势分析。实施方案主要分为三部分:一、搭建动态虚拟的云计算环境,二、安装制作HADOOP虚拟服务器模板,三、配置运行Cloudera和ClouderaDesktop。通过开源EMR架构的应用,能够效解决服务器蔓延问题,提高网络计算资源的利用效率和分布式数据挖掘服务的快速布署能力及灵活性。【关键词】云计算;海量数据挖掘;虚拟技术;分布式计算;xen;Cloudera;Hadoop;【分类号】putingZhaoHuaming(NationalScienceLibrary,ChineseAcademyofSciences,Beijing100190,China)【Abstract】anizations,thispaper,byanalyzingtheframeworksofAmazonelasticmap/reduce(EMR)platform,puting,essfulimplementation,:puting;thevirtualservertemplateofHADOOP;,putingresourceandtoenhancetherapiddeploymentcapabilityandagilityofdistributeddataprocessingservices.【Keywords】puting;massdatamining;virtualization;puting;xen;Cloudera;Hadoop1引言互联网促进了信息流通,也带来了信息的爆炸式增长,最新的IDC的研究报告指出2010年全球信息量将进入ZB时代,并且每年以60%的速度在上升,这意味着每18个月全球信息数据量将被翻倍[1]。面对不断拓展的惊人的数据规模,海量信息的存储与管理、实时处理、数据搜索、数据挖掘与智能应用等等信息处理能力面临新的挑战,信息技术架构迫切需要以动态可伸缩为特点的支持海量数据处理的新的存储计算模式的支持。云计算因为其弹性可伸缩的计算模式,受到以IBM、亚马逊、谷歌等为代表的众多高科技公司的重视,成为各公司应对海量信息处理的利器。近年来,出现了众多各具特色的云计算应用产品,包括应用在服务托管领域的亚马逊弹性云,著名的谷歌搜索,ZOHO在线办公应用等等。而应用在海量数据存储挖掘领域的典型云计算应用也出自于亚马逊公司,即亚马逊的HADOOP架构服务,亚马逊称其为弹性MR(ElasticMapReduce,EMR)[2,3],整体架构图如图1所示。EMR框架分为三部分,控制接口(AWSConsole)、存储服务(AmazonSimpleStorageService,S3)和弹性计算(puteCloud,EC2)。通过EMR平台,企业、研究人员、数据分析师能够花费较少的费用轻松处理大数据集而不用担心计算设备问题。显而易见,随着数据宇宙时代的到来,这种新的动态可伸缩的数据处理模式必将在信息技术领域扮演越来越重要的角色。本文在云计算开源框架下给出如何搭建信息分析机构自己的弹性的海量数据挖掘平台解决方案并给出了实施步骤。服务控制台(AWSConsole)用户S3ReducerMapper数据集EC2SlaveMaster图1亚马逊EMR整体构架图[2]2云计算开源框架Cloudera和XENServer在可信计算尚不成熟的时侯,通过开源技术实现随需弹性处理机构内部数据是机构信息人员搭建机构内部的EMR框架的出发点。分析上述亚马逊EMR服务框架,不难看出动态可伸缩的大数据集计算模式主要要解决两个关键问题:一是动态布署虚拟HADOOP节点服务器,二是在节点服务器间快速配置搭建HADOOP分布式环境。考察当前已有较成熟的开源技术,在开源框架下搭建这样动态灵活的大数据处理解决方案能够有几种组合方式可行,如:最接近亚马逊EMR框架的Eculyptus+Hadoop组合、基