1 / 37
文档名称:

大数据应用技术介绍培训课件.pptx

格式:pptx   大小:2,687KB   页数:37页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据应用技术介绍培训课件.pptx

上传人:读书百遍 2022/7/29 文件大小:2.62 MB

下载得到文件列表

大数据应用技术介绍培训课件.pptx

文档介绍

文档介绍:大数据应用技术介绍
2月
大数据应用技术介绍培训课件
第1页
Hadoop生态系统
大数据应用技术介绍培训课件
第2页
Hadoop生态系统
Sub Project
描述
common
分布式文件系统和通用I/
大数据应用技术介绍培训课件
第12页
Reduce
大数据应用技术介绍培训课件
第13页
MapReduce实例
大数据应用技术介绍培训课件
第14页
MapReduce内部结构
大数据应用技术介绍培训课件
第15页
Hadoop
引入一个新资源管理系统YARN
HDFS单点故障得以处理
HDFS Federation
HDFS 快照
经过NFS访问HDFS
支持Window系统
大数据应用技术介绍培训课件
第16页
Hadoop1 VS Hadoop2
大数据应用技术介绍培训课件
第17页
集群资源管理
Hadoop介绍
大数据应用技术介绍培训课件
第18页
Yarn 运行原理图
大数据应用技术介绍培训课件
第19页
Hbase介绍
1 高可靠性
2 高效性
3 面向列
4 可伸缩
5 可在廉价PC Server搭建大规模结构化存放集群
大数据应用技术介绍培训课件
第20页
Hbase体系结构
大数据应用技术介绍培训课件
第21页
HBase 系统架构图
大数据应用技术介绍培训课件
第22页
HBase部件说明
Client: 使用HBase RPC机制与HMaster和HRegionServer进行通信 Client与HMaster进行通信进行管理类操作 Client与HRegionServer进行数据读写类操作 Zookeeper: Zookeeper Quorum存放-ROOT-表地址、HMaster地址 HRegionServer把自己以Ephedral方式注册到Zookeeper中,HMaster随时感知各个HRegionServer健康情况 Zookeeper防止HMaster单点问题 HMaster: HMaster没有单点问题,HBase中能够开启多个HMaster,经过ZookeeperMaster Election机制确保总有一个Master在运行 主要负责Table和Region管理工作: 1 管理用户对表增删改查操作 2 管理HRegionServer负载均衡,调整Region分布 3 Region Split后,负责新Region分布 4 在HRegionServer停机后,负责失效HRegionServer上Region迁移
大数据应用技术介绍培训课件
第23页
Table&Region
Table伴随统计增多不停变大,会自动分裂成多份Splits,成为Regions
一个region由[startkey,endkey)表示
不一样region会被Master分配给对应RegionServer进行管理
大数据应用技术介绍培训课件
第24页
HregionServer
大数据应用技术介绍培训课件
第25页
-ROOT- & .META.
.META. 统计用户表Region信息,同时,.
-ROOT- ,不过,-ROOT-只有一个region
Zookeeper中统计了-ROOT-表location
客户端访问数据流程: Client -> Zookeeper -> -ROOT- -> .META. -> 用户数据表
屡次网络操作,不过client端有cache缓存
大数据应用技术介绍培训课件
第26页
HBase 数据模型
Row Key:     Table主键,Table中统计按照Row Key排序 Timestamp:     每次对数据操作对应时间戳,也即数据version number Column Family: 列簇,一个table在水平方向有一个或者多个列簇,列簇可由任 意多个Column组成,列簇支持动态扩展,无须预定义数量及 类型,二进制存放,用户需自行进行类型转换
大数据应用技术介绍培训课件
第27页
Hbase Shell
大数据应用技术介绍培训课件
第28页
Hbase shell
大数据应用技术介绍培训课件
第29页
Hbase与RDBMS
数据类型:Hbase只有简单字符串类型。
数据操作:Hbase只有很简单插入、查询、删除、清空操作,没有复杂表和表之间关系。
存放模式:Hbase是基于列式存放,每个列族由几个文件保留,不一样列族文件是分离。
数据维护:更新操作是替换版本,删除只是逻辑标识
可伸缩性:
大数