1 / 41
文档名称:

hadoop+hive+sqoop+hbase简介+安装部署.doc

格式:doc   大小:1,400KB   页数:41页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

hadoop+hive+sqoop+hbase简介+安装部署.doc

上传人:文库旗舰店 2019/10/10 文件大小:1.37 MB

下载得到文件列表

hadoop+hive+sqoop+hbase简介+安装部署.doc

文档介绍

文档介绍:Hadoop家族产品Hadoop简介Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。核心架构Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop,就必须知道HDFS和MapReduce是什么。HDFSHDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(largedataset)的应用程序。HDFS由一个管理结点(NameNode)和N个数据结点(DataNode)组成,每个结点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似,一样可以建目录,创建,复制,删除文件,查看文件内容等。但其底层实现上是把文件切割成Block,然后这些Block分散地存储于不同的DataNode上,每个Block还可以复制数份存储于不同的DataNode上,达到容错容灾之目的。NameNode则是整个HDFS的核心,它通过维护一些数据结构,记录了每一个文件被切割成了多少个Block,这些Block可以从哪些DataNode中获得,各个DataNode的状态等重要信息。MapReduce将大的数据分析分成小块逐个分析,最后再将提取出来的数据汇总分析,最终获得我们想要的内容。当然怎么分块分析,怎么做Reduce操作非常复杂,Hadoop已经提供了数据分析的实现,我们只需要编写简单的需求命令即可达成我们想要的数据MapReduce内部逻辑的大致流程主要由以下几步完成。1、首先将HDFS中的数据以Split方式作为MapReduce的输入。前面我们提到,HDFS中的数据是以block存储,这里怎么又变成了以Split作为输入呢?其实block是HDFS中的术语,Split是MapReduce中的术语。默认的情况下,一个Split可以对应一个block,当然也可以对应多个block,它们之间的对应关系是由InputFormat决定的。默认情况下,使用的是TextInputFormat,这时一个Split对应一个block。假设这里有4个block,也就是4个Split,分别为Split0、Split1、Split2和Split3。这时通过InputFormat来读每个Split里面的数据,它会把数据解析成一个个的(key,value),然后交给已经编写好的Mapper函数来处理。2、每个Mapper将输入(key,value)数据解析成一个个的单词和词频,比如(a,1)、(b,1)和(c,1)等等。3、在reduce阶段,每个reduce要进行shuffle读取它所对应的数据。当所有数据读取完之后,要经过Sort全排序,排序之后再交给Reducer做统计处理。比如,第一个Reducer读取了两个的(a,1)键值对数据,然后进行统计得出结果(a,2)。4、将Reducer的处理结果,以OutputFormat数据格式输出到HDFS的各个文件路径下。这里的OutputFormat默认为TextOutputFormat,key为单词,value为词频数,key和value之间的分割符为”\tab”。由上图所示,(a2)输出到Part-0,(b3)输出到Part-1,(c3)输出到Part-2。Hadoop安装一、安装环境硬件:虚拟机操作系统::::root二、。。下载地址:1,下载jdk-7u79-Linux-,解压到/usr/Java/。\r\n2,在/root/.bash_profile中添加如下配置:exportJAVA_HOME=/usr/java/jdkexportPATH=$JAVA_HOME/bin:$PATH3,使环境变量生效,#source~/.bash_profile4,安装验证#java–versionJavaversion""Java(TM)SERuntimeEnvironment(-b15)JavaHotSpot(TM)6

最近更新

流动儿童社会适应状况研究——以宿州市H社区为.. 2页

给朋友道歉信 12页

一种全自动贴袋机的叠料结构的制作方法 4页

一种养猪用多功能床的制作方法 5页

一种利用重编程制备猪神经干细胞的方法 13页

一种南瓜五豆年糕及其制备方法 5页

泰国汉语教育的多元特性分析——以泰国智慧学.. 2页

泮托拉唑钠对人胃腺癌细胞株SGC-7901中HIF-1α.. 2页

一种咖茶饮料及其制备方法 9页

一种姜汁保健糖的制作方法 3页

一种小型宠物食品研磨装置制造方法 4页

沿空掘巷巷旁切顶卸压技术及应用研究 2页

河南省民办幼儿园游戏活动开展现状调查研究 2页

河南有线数字电视服务营销策略研究 2页

河北省土地整治权属管理研究 2页

沥青路面就地热再生旧料性能评价研究 2页

沈阳住区室外风环境模拟研究 2页

江西省主导产业时空变化研究 2页

清喉利咽颗粒的毒理学评估 33页

气动系统建模与仿真 33页

语音控制计算器 33页

医药流通价格波动动态监测模型 35页

求解组合优化问题的神经计算方法 2页

航线开发可行性分析报告 27页

建筑制图与识图实验报告1000字(11篇)-靓文网 9页

铁塔工程报价明细 3页

推动陆港型国家物流枢纽高质量发展的若干思考.. 2页

倒档变速叉的钻φ16孔夹具设计及加工工艺装备.. 16页

推动架课程设计说明书 51页

四年级修改病段练习及答案 5页