1 / 24
文档名称:

hadoop体系架构概述备份.ppt

格式:ppt   大小:267KB   页数:24页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

hadoop体系架构概述备份.ppt

上传人:2623466021 2021/6/10 文件大小:267 KB

下载得到文件列表

hadoop体系架构概述备份.ppt

相关文档

文档介绍

文档介绍:Hadoop体系架构概述备份
Hadoop体系架构概述备份Hadoop体系架构概述备份
Hadoop体系架构
HDFS简介
Map/Reduce模型
分布式列式数据库Hbase
通过阅读报刊,我们能增长见识,扩大自己的知识面。
Hadoop体系架构
HDFS简介
Map/Reduce模型
分布式列式数据库Hbase
Hadoop概述
基于Apache基金会下的一个开源项目,致力于开发一个可靠的、大规模的分布式计算框架
用户可采用简单的计算模型在计算机集群下对大规模的数据进行分布式处理
设计理念之一是扩展单一的服务器为成千上万机器的集群,且集群中每一个机器同时提供本地计算力和存储力
Hadoop框架是在应用层检测和处理硬件失效问题,而不是依赖于硬件自身来维持高可用性。
在Hadoop框架集群中硬件失效被认为是一种常态,集群的高可用性服务是建立在整个集群之上的
分布式文件系统(Hadoop Distributed File System,HDFS)
并行计算模型(Map/Reduce)
列式数据库(HBase)
数据仓库(Hive)
数据分析语言(Pig)
数据格式转化工具(Sqoop)
协同工作系统(Zookeeper)
数据序列化系统(Avro)
HDFS
(Hadoop Distributed File System)
Map/Reduce
(Job Scheduling/Execution System)
Hbase
(Column Database)
Pig
(Data Flow)
Hive
(SQL)
Sqoop
ETL Tools
BI Reporting
RDBMS
AvroSerialization)
Zookeeper(Coordination)
Hadoop整体框架
Hadoop整体框架下特点
Hadoop主要在多节点集群环境下
以数据存储为基础
最大限度兼容结构化数据格式
以数据处理为目的
且其数据操作技术多样化
HDFS概述-----基本特征
基于商用硬件环境
HDFS具有高容错性,并且被部署在廉价的硬件之上
HDFS向应用程序提供高的数据吞吐访问,适合于需要处理大规模海量数据集的应用
HDFS遵循部分POSIX协议要求,可以确保应用程序以流的方式访问文件系统数据
HDFS的对现实应用环境的假设及其目标
硬件失效
流式数据访问
海量数据集
追加写入及文件同步
“移动计算比移动数据的代价小”
跨异构硬件和软件平台的可移植性
1. 硬件失效。在HDFS中,硬件失效是常态而不是意外。一个真实的HDFS环境可能由上百或上千的机器组成,每一个机器存 储文件系统中的部分数据。集群中大量的机器都有极高的可能性会发生硬件故障而失效,这一真实的情况表明HDFS集群中的部分机器总是处于非正常工作状态。因此,检测机器失效并快速自动恢复发生故障的机器是HDFS的核心架构目标。
2. 流式数据访问。运行在HDFS之上的应用程序需要流式访问其数据集,这与运行在常规文件系统上的通用应用程序不一样。HDFS更适用于批量数据处理而不是用户的交互性使用。HDFS的重点是强调数据的高吞吐访问而不是数据的低延迟访问。POSIX规定了很多的硬性要求,这些要求对运行在HDFS上的应用程序而言是非必须的。但是,HDFS在几个关键领域引入了POSIX语义来提高数据的吞吐率。
3. 海量数据集。运行在HDFS上的应用是建立在海量数据集之上的。HDFS被设计来存储大文件,通常HDFS中的文件大小应该是千兆字节到兆兆字节。HDFS必须具备有很高的总数据带宽,其单一集群规模能够容乃成千上万的机器节点,并且一个HDFS集群能够支撑数以万计的文件量。
4. 追加写入及文件同步。大多数的HDFS应用都需要“一次写多次读”的文件访问模式。HDFS具有两种高级特征:刷新缓存(hflush)和文件添加(append)。刷新缓存使得一个未关闭文件的最后一个块对访问者可见的同时提供了读一致性和数据持久性。文件添加提供了在一个已关闭文件的末尾添加额外数据的机制。
5. “移动计算比移动数据的代价小”。应用所需要的计算如果在数据的附近实施效率更高,这一特性在数据量特别庞大时会显得更加明显。数据处理的本地化会最大限度地减少网络拥塞,并且提高系统整体的吞吐量。因此,在HDFS中假设移动计算至数据的存储位置比移动数据至应用程序运行位置更好。为了实现这一假设,HDFS为应用提供了接口来移动应用自身到接近数据的储存点

最近更新

2024年兰考三农职业学院单招综合素质考试必刷.. 59页

2025年度上市公司股东股权转让合规操作合同 10页

2025年度5G通信技术研发企业员工劳动合同终止.. 7页

简单的餐饮合作协议书(五篇) 9页

2024年广州工程技术职业学院单招职业技能测试.. 56页

2024年江西工业贸易职业技术学院单招职业技能.. 55页

2024年浙江警官职业学院单招职业倾向性测试题.. 55页

二零二四年宠物运送服务合同范本与宠物运输保.. 15页

二零二四年度fsc认证家具定制及销售合同范本 14页

二零二四年度PVC管材研发与应用合作协议 14页

二零二四年度【智能家居】二手房出售协议书模.. 16页

二零二四年度中式面馆房屋租赁及餐饮管理协议.. 14页

二零二四年度人工智能设备采购合同签订流程及.. 14页

二零二四年度企业形象标志设计合同书 16页

二零二四年度便利店员工工作时间与休息安排合.. 14页

二零二四年度先进制造业厂房租赁管理协议 14页

二零二四年度农产品包装盒定制采购合同 13页

二零二四年度出租车绿色出行推广雇佣合同 15页

古代诗歌五首登幽州台歌公开课一等奖课件赛课.. 10页

高考物理复习等效重力在电场中的应用ppt公开课.. 22页

二零二四年度宾馆会议室租赁及活动策划合同示.. 13页

经济文书写作二文书公开课一等奖课件赛课获奖.. 41页

小教专业大学生职业发展规划与管理 6页

小公司员工培训服务方案 7页

元宵节主题班会60991公开课一等奖课件赛课获奖.. 21页

贵州省遵义市2023-2024学年高一数学下学期7月.. 20页

外国美术史17世纪荷兰公开课一等奖课件赛课获.. 14页

陶瓷制品物流配送协议 7页

门店装修合同简易版 7页

铁路工程居间合同样本 6页