文档名称：

大数据平台介绍.pptx

格式：pptx 大小：5,170KB 页数：50页

下载后只包含 1 个 PPTX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

大数据平台介绍.pptx

上传人:xyf0807 2021/11/23 文件大小：5.05 MB

下载得到文件列表

大数据平台介绍.pptx

相关文档

文档介绍

文档介绍：It is applicable to work report, lecture and teaching
大数据平台介绍
1
2
目录
Hadoop大数据生态圈介绍
大数据应用介绍
3
Cloudera Manager介绍
Hadoop大数据生态圈
Hadoop生态圈
Hadoop简介
Hadoop一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。
Hadoop能解决哪些问题
海量数据需要及时分析和处理。
海量数据需要深入分析和挖掘。
数据需要长期保存
问题：
磁盘IO成为一种瓶颈,而非CPU资源。
网络带宽是一种稀缺资源
硬件故障成为影响稳定的一大因素
HDFS适应条件
HDFS：为以流式数据访问模式存储超大文件而设计的文件系统。
流式数据访问
指的是几百MB，几百GB，几百TB，甚至几百PB
流式数据访问
HDFS建立的思想是：一次写入、多次读取模式是最高效的。
商用硬件
hadoop不需要运行在昂贵并且高可靠的硬件上。
HDFS不适应条件
低延迟数据访问
HDFS是为了达到高数据吞吐量而优化的，这是以延迟为代价的，对于低延迟访问，可以用Hbase（hadoop的子项目）。
大量的小文件
多用户写入，任意修改
HDFS基本单元
Block(块)：HDFS基本储存单元，是个逻辑单元。一个文件有可能包含多个块，一个块有可以包含多个文件，由文件的大小和块大小的参数决定。。Hdfs中Block的大小，默认64MB，如果设置大，就会有可能导致Map运行慢，设置小，有可能导致Map个数多，所有一定要设置适当。（目前主流机器建议设置为128M）
设置一个Block 64MB，如果上传文件小于该值，仍然会占用一个Block的命名空间（NameNode metadata），但是物理存储上不会占用64MB的空间
Block大小和副本数由Client端上传文件到HDFS时设置，其中副本数可以变更，Block是不可以再上传后变更的
HDFS处理机制
Client：切分文件；访问HDFS；与NameNode交互，获取文件位置信息；与DataNode交互，读取和写入数据。
NameNode：Master节点，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理客户端请求。
DataNode：Slave节点，存储实际的数据，汇报存储信息给NameNode。
Secondary NameNode：辅助NameNode，分担其工作量；定期合并fsimage和fsedits，推送给NameNode；紧急情况下，可辅助恢复NameNode，但Secondary NameNode并非NameNode的热备