文档介绍:HDFS简介
HDFS设计
HDFS架构
HDFS数据流
Hadoop 主要由 HDFS ( Hadoop Distributed File System ) 和 MapReduce 两部分组成。
HDFS 是Hadoop Dist
HDFS简介
HDFS设计
HDFS架构
HDFS数据流
Hadoop 主要由 HDFS ( Hadoop Distributed File System ) 和 MapReduce 两部分组成。
HDFS 是Hadoop Distributed File System的简称,是一个适合运行在通用硬件(commodity hardware)上的分布式文件系统。提供了一个高度容错性和高吞吐量的海量数据存储解决方案。
HDFS 的上一层是 MapReduce 引擎,该引擎由 JobTrackers 和 TaskTracker组成。
对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件等等。也可以简单的看作是一个巨大的硬盘。
对于Hadoop而言,HDFS是一个与Hadoop兼容最好的标准级文件系统。Hadoop是一个框架,HDFS是其中一个部件。
硬件错误
流式数据访问
大规模数据集
简单一致性模型
移动计算比移动数据更划算
异构软硬平台间的可移植性
HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。
Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问,是分布式文件系统中的管理者。
Datanode一般是一个节点一个,负责管理它所在节点上的存储,文件存储的基本单元。
Client代表用户通过与Namenode和Datanode交互访问整个文件系统。可以是具体程序,也可以是应用。
NAMEN NAMENODE(管ODE(管理者
通过文件写入说明三者交互关系:
文件写入(通信都基于标准的 TCP/IP 协议)
。
,返回给Client它所管理部分DataNode的信息。
,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
HDFS架构中的副本策略: HDFS采取了副本策略,其目的是为了提高系统的可靠性,可用性。HDFS的副本放置策略是三个副本,一个放在本节点上,一个放在同一机架中的另一个节点上,还有一个副本放在另一个不同的机架中的一个节点上。