文档介绍:安装部署Hadoop集群课程名称:        云计算实验名称:  安装部署Hadoop集群学  号:         姓  名:          专业班级:        软件工程1班指导教师:          实验时间:   2015年12月15日目录1hadoop简介  12配置步骤                          (master主机)  (slave主机)  173验证配置                224单词统计实验  225实验总结  251hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。它由许多元素构成,其最底部是HadoopDistributedFileSystem,简称HDFS,它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎,该引擎由JobTrackers和TaskTrackers组成。Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase,基本构成了Hadoop分布式平台的所有技术核心。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:(1)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖;(2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中;(3)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快;(4)高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配;(5)低成本。与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。,这个三个节点是用户名为hadoop-,这里虚拟机的安装过程略去。三个节点中,1个Master节点,2个slave节点,节点之间通过局域网连接,可以相互ping通。节点IP地址设置如下:  master主机主要配置Namenode和JobTracker的角色,负责总管分布式数据和分解任务的执行;2个slave主机配置Datanode和JobTracker的角色,负责分布式数据存储以及任务的执行。,另外两个主机的配置过程与master的配置过程相同。为了方便管理使用,先修改主机的hostname。先通过如下命令查看当前主机名:如果当前主机名与规划的主机名不一致,可以修改/etc/work文件中”HOSTNAME”来使主机名与规划的相一致。修改命令如下:打开该文件后,将”HOSTNAME”后面的值改成规划的主机名,保存退出,重启该主机即生效。修改后结果如下:到这里,hostname修改完毕。。首先添加一块网卡(这里选择host-only模式),如图2-1。图2-1添加网卡然后查看该网卡的MAC地址,并复制,如图2-2。图2-2查看MAC地址编辑Autoeth1,检查该网卡MAC地址与刚才添加的host-only网卡的MAC地址是否一致。如果不一致,则将host-only网卡的MAC地址粘贴到MAC的编辑框中,如图2-3。图2-3确认MAC地址切换到IPvSettings选项卡,如图2-4所示。将Method改成Maual,即手动。mask和gateway。如果需要连接外网,则需要配置DNS服务器地址,以及在物理机的网卡里设置共享。图2