文档介绍：1
主要内容
Hadoop项目简介
HDFS体系结构
HDFS关键运行机制
Hadoop (分布式文件系统)
Hadoop API
Hadoop环境搭建
2
Hadoop项目简介
吃水不忘挖井人
Doug Cutting简介:
Lucene(开源的全文检索包人)、 Nutch(开源搜索引擎)、hadoop创始人。曾经在是雅虎搜索工程师,后面加入Cloudera,发展hadoop的企业级应用。
一位盗火者,把高深的搜索引擎技术带给普通大众。
3
Hadoop项目简介
Apache的解决方案
Google云计算
MapReduce
BigTable
GFS
Chubby
GFS-->HDFS
MapReduce-->HadoopBigTable-->HBase
4
HDFS为了做到可靠性(reliability)创建了多份数据块(data blocks)的复制(replicas),pute nodes),MapReduce就可以在它们所在的节点上处理这些数据了。
Hadoop项目简介
5
HDFS体系结构
NameNodeMaster
DataNodeChunksever
6
一个名字节点和多个数据节点
数据复制(冗余机制)
--存放的位置(机架感知策略)
故障检测
--数据节点
心跳包(检测是否宕机)
块报告(安全模式下检测)
数据完整性检测(校验和比较)
--名字节点(日志文件,镜像文件)
空间回收机制
HDFS关键运行机制--保障可靠性的措施
7
HDFS关键运行机制--写文件流程
客户端缓存
流水线复制
并发写控制
流程:

,客户端联系NameNode, NameNode分配DataNode,DataNode依照客户端的位置被排列成一个有着最近物理距离和最小的序列
,发送请求头,然后等待回应,依次下传,客户端得到回包,流水线建立成功,
4. 正式发送数据,以4K为大小传送
8
HDFS关键运行机制--读文件流程
客户端联系NameNode,得到所有数据块信息,以及数据块对应的所有数据服务器的位置信息
尝试从某个数据块对应的一组数据服务器中选出一个,进行连接(选取算法未加入相对位置的考虑)
数据被一个包一个包发送回客户端,等到整个数据块的数据都被读取完了,就会断开此链接,尝试连接下一个数据块对应的数据服务器,整个流程,依次如此反复,直到所有想读的都读取完了为止
9
HDFS VS. GFS
总体架构的比较
数据结构化管理组件:Hbase→BigTable
并行计算模型:MapReduce→MapReduce
分布式文件系统:HDFS→GFS
Hadoop缺少分布式锁服务Chubby
HBase
MapReduce
HDFS
BigTable
MapReduce
GFS
Hadoop云计算应用
Google云计算应用
10
HDFS VS. GFS
HDFS与GFS比较
中心服务器模式的差异
GFS:多台物理服务器,选择一台对外服务,损坏时可选择另外一台提供服务
HDFS:单一中心服务器模式,存在单点故障
原因:Hadoop缺少分布式锁服务