1 / 22
文档名称:

2020年Hadoop体系架构概述---备份.ppt

格式:ppt   大小:161KB   页数:22页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

2020年Hadoop体系架构概述---备份.ppt

上传人:梅花书斋 2021/1/13 文件大小:161 KB

下载得到文件列表

2020年Hadoop体系架构概述---备份.ppt

文档介绍

文档介绍:Hadoop体系架构
HDFS简介
Map/Reduce模型
分布式列式数据库Hbase
*
Hadoop体系架构概述---备份
*
Hadoop概述
基于Apache基金会下的一个开源项目,致力于开发一个可靠的、大规模的分布式计算框架
用户可采用简单的计算模型在计算机集群下对大规模的数据进行分布式处理
设计理念之一是扩展单一的服务器为成千上万机器的集群,且集群中每一个机器同时提供本地计算力和存储力
Hadoop框架是在应用层检测和处理硬件失效问题,而不是依赖于硬件自身来维持高可用性。
在Hadoop框架集群中硬件失效被认为是一种常态,集群的高可用性服务是建立在整个集群之上的
*
Hadoop体系架构概述---备份
*
分布式文件系统(Hadoop Distributed File System,HDFS)
并行计算模型(Map/Reduce)
列式数据库(HBase)
数据仓库(Hive)
数据分析语言(Pig)
数据格式转化工具(Sqoop)
协同工作系统(Zookeeper)
数据序列化系统(Avro)
HDFS
(Hadoop Distributed File System)
Map/Reduce
(Job Scheduling/Execution System)
Hbase
(Column Database)
Pig
(Data Flow)
Hive
(SQL)
Sqoop
ETL Tools
BI Reporting
RDBMS
AvroSerialization)
Zookeeper(Coordination)
Hadoop整体框架
*
Hadoop体系架构概述---备份
*
Hadoop整体框架下特点
Hadoop主要在多节点集群环境下
以数据存储为基础
最大限度兼容结构化数据格式
以数据处理为目的
且其数据操作技术多样化
*
Hadoop体系架构概述---备份
*
HDFS概述-----基本特征
基于商用硬件环境
HDFS具有高容错性,并且被部署在廉价的硬件之上
HDFS向应用程序提供高的数据吞吐访问,适合于需要处理大规模海量数据集的应用
HDFS遵循部分POSIX协议要求,可以确保应用程序以流的方式访问文件系统数据
*
Hadoop体系架构概述---备份
*
HDFS的对现实应用环境的假设及其目标
硬件失效
流式数据访问
海量数据集
追加写入及文件同步
“移动计算比移动数据的代价小”
跨异构硬件和软件平台的可移植性
*
Hadoop体系架构概述---备份
*
1. 硬件失效。在HDFS中,硬件失效是常态而不是意外。一个真实的HDFS环境可能由上百或上千的机器组成,每一个机器存 储文件系统中的部分数据。集群中大量的机器都有极高的可能性会发生硬件故障而失效,这一真实的情况表明HDFS集群中的部分机器总是处于非正常工作状态。因此,检测机器失效并快速自动恢复发生故障的机器是HDFS的核心架构目标。
2. 流式数据访问。运行在HDFS之上的应用程序需要流式访问其数据集,这与运行在常规文件系统上的通用应用程序不一样。HDFS更适用于批量数据处理而不是用户的交互性使用。HDFS的重点是强调数据的高吞吐访问而不是数据的低延迟访问。POSIX规定了很多的硬性要求,这些要求对运行在HDFS上的应用程序而言是非必须的。但是,HDFS在几个关键领域引入了POSIX语义来提高数据的吞吐率。
3. 海量数据集。运行在HDFS上的应用是建立在海量数据集之上的。HDFS被设计来存储大文件,通常HDFS中的文件大小应该是千兆字节到兆兆字节。HDFS必须具备有很高的总数据带宽,其单一集群规模能够容乃成千上万的机器节点,并且一个HDFS集群能够支撑数以万计的文件量。
4. 追加写入及文件同步。大多数的HDFS应用都需要“一次写多次读”的文件访问模式。HDFS具有两种高级特征:刷新缓存(hflush)和文件添加(append)。刷新缓存使得一个未关闭文件的最后一个块对访问者可见的同时提供了读一致性和数据持久性。文件添加提供了在一个已关闭文件的末尾添加额外数据的机制。
5. “移动计算比移动数据的代价小”。应用所需要的计算如果在数据的附近实施效率更高,这一特性在数据量特别庞大时会显得更加明显。数据处理的本地化会最大限度地减少网络拥塞,并且提高系统整体的吞吐量。因此,在HDFS中假设移动计算至数据的存储位置比移动数据至应用程序运行位置更好。为了实现这一假设,HDFS为应用提供了接口来

最近更新

2019年实习班班主任工作总结范文 2页

有趣运动会作文6篇 6页

珍爱生命安全第一演讲稿范文合集9篇 20页

合伙经营合同范文合集10篇 33页

超市的辞职报告-1 13页

2020-2021学年河北省衡水市景县杜桥镇冀人版二.. 8页

石榴籽一家亲主题团课2025观后感心得体会【5篇.. 5页

幼儿园中班数学教案详案小兔做客精选 4页

有关工程合同模板汇总9篇 19页

直播电商的直播带货模式解析 4页

2016届上海市长宁宝山嘉定青浦四区高三二模物.. 27页

小学六年级语文教师2019年度工作总结范文 5页

关于新人自我介绍范文集合7篇 7页

目标管理的作用与实施步骤 6页

提高学困生物理成绩的对策研究 7页

盐碱地治理可行性方案 3页

公益路上同行 27页

一年级下册数学试题-第三单元-认识100以内的数.. 10页

广告公司员工个人工作总结 5页

电脑租赁(3)创业计划书 5页

表扬学生拾金不昧表扬信-1 10页

公司月度总结-公司运营情况总结与展望 21页

公司文化介绍-了解我们的文化与价值观 26页

2025年安徽职业技术学院单招职业适应性测试题.. 62页

2025年安徽职业技术学院单招职业技能测试题库.. 128页

2025年安徽工业经济职业技术学院单招职业倾向.. 126页

2025年芜湖职业技术学院单招职业倾向性测试题.. 60页

2024年海南中考数学试题及答案word 10页

最新部编版四年级道德与法治下册全册教案【完.. 55页

基于单片机的安防监控系统研究与设计 24页