文档介绍:Hadoop简介
Hadoop是 Apache 下的一个项目,它是一个开源的可运行于大规模集群上的分布式并行编程框架,由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。其中,HDFS和MapReduce 是两个最基础最重要的成员,他们分别是Google GFS和MapReduce的开源实现。HDFS是一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB级)的大小(通常超过64M)
第1页/共30页
Hadoop简介
HDFS采用Master/Slave架构,一个HDFS集群由一个Namenode和一定数目的Datanodes组成。Namenode是一个中心服务器,负责管理文件系统的名字空间(Namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个,负责管理其所在节点上的存储
第2页/共30页
Hadoop简介
HDFS有如下基本特征 :
(1)对于整个集群有单一的命名空间。 (2)数据一致性 。适合一次写入多次读取的模型。
(3)文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置会有 复制文件块来保证数据的安全性。
第3页/共30页
Hadoop集群模块逻辑结构
第4页/共30页
网络拓扑
第5页/共30页
网络拓扑
第6页/共30页
Hadoop简介
第7页/共30页
Hadoop简介
第8页/共30页
Hadoop-HA集群运作机制图
第9页/共30页
集群搭建需要考虑的几点问题
第10页/共30页