1 / 50
文档名称:

大数据平台介绍.pptx

格式:pptx   大小:5,170KB   页数:50页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据平台介绍.pptx

上传人:xyf0807 2021/11/23 文件大小:5.05 MB

下载得到文件列表

大数据平台介绍.pptx

相关文档

文档介绍

文档介绍:It is applicable to work report, lecture and teaching
大数据平台介绍
1
2
目录
Hadoop大数据生态圈介绍
大数据应用介绍
3
Cloudera Manager介绍
Hadoop大数据生态圈
Hadoop生态圈
Hadoop简介
Hadoop一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储 。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
Hadoop能解决哪些问题
海量数据需要及时分析和处理。
海量数据需要深入分析和挖掘。
数据需要长期保存
问题:
磁盘IO成为一种瓶颈,而非CPU资源。
网络带宽是一种稀缺资源
硬件故障成为影响稳定的一大因素
HDFS适应条件
HDFS:为以流式数据访问模式存储超大文件而设计的文件系统。
流式数据访问
指的是几百MB,几百GB,几百TB,甚至几百PB
流式数据访问
HDFS建立的思想是:一次写入、多次读取模式是最高 效的。
商用硬件
hadoop不需要运行在昂贵并且高可靠的硬件上。
HDFS不适应条件
低延迟数据访问
HDFS是为了达到高数据吞吐量而优化的,这是以延迟为代价的,对于低延迟访问,可以用Hbase(hadoop的子项目)。
大量的小文件
多用户写入,任意修改
HDFS基本单元
Block(块):HDFS基本储存单元,是个逻辑单元。一个文件有可能包含多个块,一个块有可以包含多个文件,由文件的大小和块大小的参数决定。。Hdfs中Block的大小,默认64MB,如果设置大,就会有可能导致Map运行慢,设置小,有可能导致Map个数多,所有一定要设置适当。(目前主流机器建议设置为128M)
设置一个Block 64MB,如果上传文件小于该值,仍然会占用一个Block的命名空间(NameNode metadata),但是物理存储上不会占用64MB的空间
Block大小和副本数由Client端上传文件到HDFS时设置,其中副本数可以变更,Block是不可以再上传后变更的
HDFS处理机制
Client:切分文件;访问HDFS;与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。
NameNode:Master节点,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户端请求。
DataNode:Slave节点,存储实际的数据,汇报存储信息给NameNode。
Secondary NameNode:辅助NameNode,分担其工作量;定期合并fsimage和fsedits,推送给NameNode;紧急情况下,可辅助恢复NameNode,但Secondary NameNode并非NameNode的热备