1 / 21
文档名称:

云计算之HDFS.ppt

格式:ppt   大小:1,843KB   页数:21页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

云计算之HDFS.ppt

上传人:yzhlya 2022/6/10 文件大小:1.80 MB

下载得到文件列表

云计算之HDFS.ppt

相关文档

文档介绍

文档介绍:*
主要内容
Hadoop项目简介
HDFS体系结构
HDFS关键运行机制
Hadoop (分布式文件系统)
Hadoop API
Hadoop环境搭建
*
Hadoop项目简介
吃水不忘挖井人
Doug *
主要内容
Hadoop项目简介
HDFS体系结构
HDFS关键运行机制
Hadoop (分布式文件系统)
Hadoop API
Hadoop环境搭建
*
Hadoop项目简介
吃水不忘挖井人
Doug Cutting简介:
Lucene(开源的全文检索包人)、 Nutch(开源搜索引擎)、hadoop创始人。曾经在是雅虎搜索工程师,后面加入Cloudera,发展hadoop的企业级应用。
一位盗火者,把高深的搜索引擎技术带给普通大众。
*
Hadoop项目简介
Apache的解决方案
Google云计算
MapReduce
BigTable
GFS
Chubby
GFS-->HDFS
MapReduce-->Hadoop BigTable-->HBase
*
HDFS为了做到可靠性(reliability)创建了多份数据块(data blocks)的复制(replicas),并将它们放置在服务器群的计算节点中(compute nodes),MapReduce就可以在它们所在的节点上处理这些数据了。
Hadoop项目简介
*
HDFS体系结构
NameNodeMaster
DataNodeChunksever
*
一个名字节点和多个数据节点
数据复制(冗余机制)
--存放的位置(机架感知策略)
故障检测
--数据节点
心跳包(检测是否宕机)
块报告(安全模式下检测)
数据完整性检测(校验和比较)
--名字节点(日志文件,镜像文件)
空间回收机制
HDFS关键运行机制 --保障可靠性的措施
*
HDFS VS. GFS
总体架构的比较
数据结构化管理组件:Hbase→BigTable
并行计算模型:MapReduce→MapReduce
分布式文件系统:HDFS→GFS
Hadoop缺少分布式锁服务Chubby
HBase
MapReduce
HDFS
BigTable
MapReduce
GFS
Hadoop云计算应用
Google云计算应用
*
HDFS VS. GFS
HDFS与GFS比较
中心服务器模式的差异
GFS:多台物理服务器,选择一台对外服务,损坏时可选择另外一台提供服务
HDFS:单一中心服务器模式,存在单点故障
原因:Hadoop缺少分布式锁服务
*
HDFS VS. GFS
HDFS与GFS比较
子服务器管理模式差异
GFS:Chunk Server在Chubby中获取独占锁表示其生存状态,Master通过轮询这些独占锁获知Chunk Server的生存状态
HDFS:DataNode通过心跳的方式告知NameNode其生存状态
GFS中,Master损坏时,替补服务器可以快速获知Chunk Server的状态
HDFS中,NameNode损坏后,NameNode恢复时需要花费一段时间获知DataNode的状态
在添加数据存储节点时,GFS的伸缩性较HDFS要好
原因:Hadoop缺乏分布式锁服务
*
HDFS VS. GFS
HDFS与GFS比较
HDFS具备安全模式
获知数据块副本状态,若副本不足,则拷贝副本至安全数目(如3个)
GFS不具备安全模式
副本损坏处理:API读取副本失败时,Master负责发起拷贝任务
*
HDFS VS. GFS
HDFS与GFS比较
HDFS具备空间回收机制
文件删除时,仅删除目录结构
实际数据的删除在等待一段时间后实施
优点:便于恢复文件
*
HDFS API
简单的HDFS API:
 (path srcPath, path dstPath)  上传本地文件到HDFS的指定位置上
eg:
config = new Configuration(); hdfs = (config); srcPath = new Path(srcFile); dstPath = new Path(dstFile); (srcPath, dstPath);
 (path path)  创建HDFS文件