1 / 45
文档名称:

大数据处理引擎.ppt

格式:ppt   大小:2,827KB   页数:45页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据处理引擎.ppt

上传人:中华文库小当家 2020/11/3 文件大小:2.76 MB

下载得到文件列表

大数据处理引擎.ppt

相关文档

文档介绍

文档介绍:传统的海量数据分析方案ORACLERADATA可扩展能力差专有硬件针对叫LTP进行了优化价格昂贵实例:纽约证券交易所(NYSE)日交易量49Billion交易/天NYSE5,,000花费1000万美元构建的数据仓库4个月里容量和性能就无法再满足要求1,0005002Billion数据量增长的速度远远超过了交易/天传统DBMS的处理能力2006年6月2007年1月7年8月ApacheHadoop项目2004年Dongcutting参考Google的论文开始实现Hadoop2006年Yahoo年雇佣DongCutting组队专职开发2006年2月,ApacheHadoop开源项目正式启动。ApacheHadoopApacheHadoopEcosystemETLToOlsBIReportingRDBMSPig(DataFlow,Hive(SQL)ScoopMapReduce(JobScheduling/EXecutionSystem)lI8HBase(key-valuestore)I(Streaming/PipesAPIs)9HDFS(HadoopDistributedFileSystem)HDFS设计1个NameNode+若干个DataNode将文件划分为若干块(Chunk)存储于各DataNode节点上每个块固定大小(64M)通过冗余来提高可靠性每个数据块(Chunk)至少在3个DataNode上冗余通过单个Namenode来协调数据访问、元数据存储结构简单,容易保持元数据一致性HDFS体系结构查找元数据获得文件存储位置元数据(文件名,存储位置)(读文DatanodesDatanodes机架机架2答尸端(写文MapReduce-“分而治之”inputmaptasKsreducetasksoutputpOeducepartOsplit2maporeducepartmapSHreduceart2map()h交Inputsplshuffleoutput聚集查询(SUM、AVG等)最终查询结果P4D4MapReduce用户自定义Map、Reduceforkfork分配Master分配lap存储于GFS的Worker输入数据写入GFS0utput写入本地WorkerFile0读取文件系统WorkerChunkOutputWorkerWorkerMapReduce执行流程提交任务mastermap调度reducereduceworkers