文档介绍：HDFS简介
HDFS设计
HDFS架构
HDFS数据流
Hadoop 主要由 HDFS （ Hadoop Distributed File System ）和 MapReduce 两部分组成。
HDFS 是Hadoop Dist
HDFS简介
HDFS设计
HDFS架构
HDFS数据流
Hadoop 主要由 HDFS （ Hadoop Distributed File System ）和 MapReduce 两部分组成。
HDFS 是Hadoop Distributed File System的简称，是一个适合运行在通用硬件(commodity hardware)上的分布式文件系统。提供了一个高度容错性和高吞吐量的海量数据存储解决方案。
HDFS 的上一层是 MapReduce 引擎，该引擎由 JobTrackers 和 TaskTracker组成。
对外部客户机而言，HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件等等。也可以简单的看作是一个巨大的硬盘。
对于Hadoop而言，HDFS是一个与Hadoop兼容最好的标准级文件系统。Hadoop是一个框架，HDFS是其中一个部件。
硬件错误
流式数据访问
大规模数据集
简单一致性模型
移动计算比移动数据更划算
异构软硬平台间的可移植性
HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。
Namenode是一个中心服务器，负责管理文件系统的名字空间(namespace)以及客户端对文件的访问，是分布式文件系统中的管理者。
Datanode一般是一个节点一个，负责管理它所在节点上的存储，文件存储的基本单元。
Client代表用户通过与Namenode和Datanode交互访问整个文件系统。可以是具体程序，也可以是应用。
NAMEN NAMENODE（管ODE（管理者
通过文件写入说明三者交互关系：
文件写入（通信都基于标准的 TCP/IP 协议）
。
，返回给Client它所管理部分DataNode的信息。
，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。
HDFS架构中的副本策略： HDFS采取了副本策略，其目的是为了提高系统的可靠性，可用性。HDFS的副本放置策略是三个副本，一个放在本节点上，一个放在同一机架中的另一个节点上，还有一个副本放在另一个不同的机架中的一个节点上。