1 / 39
文档名称:

大数据分析关键技术39.ppt

格式:ppt   大小:5,529KB   页数:39页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据分析关键技术39.ppt

上传人:changdan5609 2019/5/13 文件大小:5.40 MB

下载得到文件列表

大数据分析关键技术39.ppt

文档介绍

文档介绍:大数据分析关键技术TEST概述即席查询批量处理流式计算大数据计算分析模式分类即席查询Ad-HocQuery批量处理BatchProcessingMap/puting数据承载响应时间适用场景磁盘秒级(准实时)自然人交互式经营分析磁盘分钟级至小时级(准实时)事前/事后大批量数据处理内存(事件窗口非全量数据)秒级(实时)实时事件分析实时风险干预针对不同的业务领域,需要采用不同的数据计算分析方式,快速发现数据价值。即席查询即席查询(AdHoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是用户自定义查询条件。puteFrameworkSQLSyntaxMetaDataBatchProcessingAd-HocQuery实时性:puteFrameworkSQLSyntaxMetaDataBatchProcessingAd-HocQueryMapReduce是一种编程模型,用于大规模数据集的并行批量计算。概念Map和Reduce当前的主流实现是指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保证所有映射的键值对中的每一个共享相同的键组。形成这种模型的原因是:数据的分布式存储、计算资源的分布式、并行计算减少计算时长。批量处理实时性:低流式计算流数据的实时计算注重对流数据的快速高效处理、计算和分析。其特点是计算过程数据不落地,所有数据在内存中完成。其计算模型是根据规则生成容器,当数据流经过容器时,实时产生分析结果。流式计算InputAdapterOutputAdapterEngineClusterClusterManagementRuleRepositoryNoSQL实时性:monHiveQL&InterfaceMetaDataSQLJDBCHiveMetaStoreHDFSNNStateStoreImpaladQueryPlannerQueryCoordinatorQueryExecEngineImpaladQueryPlannerQueryCoordinatorQueryExecEngineDataHDFSDNHBaseDataHDFSDNHBaseDataHDFSDNHBaseImpalaNodeImpalaNodeLocalDirectReadsThriftHive架构DataHDFSDNTaskTrackerJobTrackerNameNodeHadoopHive()piler,Optimizer,Executor)MetaStoreThriftServer:JDBC通过ThriftServer连接到Hive。ThriftServer连接MetaStore来读取hive的元数据信息。MetaStore:在关系型数据库中存放表/分区/列元数据,可以低延迟的快速的访问到需要的元数据信息。Driver/piler/ExecutionEngine:客户端提交的HiveSQL首先进入Driver,然后Driver会为此次HiveSQL的执行创建一个Session,Driver维护整个session的生命周期。piler,piler来对用户提交的HiveSQL进行编译/检查/优化并最终生成MapReduce任务。ExecutionEngine会与Hadoop进行交互,将MapReduce任务交给Hadoop来执行,并从Hadoop取得最终的执行结果,并返回给用户。解析HiveSQL之后生成所MapReduce任务,在运行中访问元数据信息时,,此文件会被放入Hadoop的分布式缓存中,,MapReduce任务可以从分布式缓存中获得相应的元数据。Impala相对于Hive的优势Impala不需要把中间结果写入磁盘,省掉了大量的I/O开销。省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢(默认每个心跳间隔是3秒钟),Impala直接通过相应的服务进程来进行作业调度,速度快了很多。Impala借鉴了MPP并行数据库的思想,可以做更多的查询优化,从而省掉不必要的shuffle、sort等开销。使用了支持Datalocality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行,减少了网络开销。用C++实现,做了很多有针对性的硬件优化。对外提供多语言API、多种访问协议。中间结果作业调度作业分发数据访问代码实现

最近更新

作文写作技巧有详有略详略得当公开课一等奖课.. 59页

2020—2021年人教版一年级数学上册期中考试一.. 7页

乙醛教学公开课一等奖课件赛课获奖课件 22页

记忆中的故乡 2页

2020—2021年部编人教版一年级语文上册期末考.. 5页

2020—2021年部编版一年级数学上册期中测试卷.. 6页

2020—2021年部编版一年级语文上册期中考试题.. 5页

2020—2021年部编版二年级数学(上册)期中试题.. 6页

2020—2021年部编版二年级语文上册期中模拟考.. 4页

2020—2021年部编版二年级语文上册期末考试卷.. 5页

2020—2021年部编版四年级语文上册期中试卷及.. 7页

中小学生公共安全教育教师用书解读公开课一等.. 44页

2020年二年级数学上册第二次月考模拟试卷及答.. 15页

2020年人教版一年级数学上册期末复习及答案(四.. 23页

2020年人教版一年级语文上册第一次月考强化训.. 34页

细菌世界历险记(B卷及答案) 2页

B族维生素的作用 8页

2020年人教版年级数学上册期中水平测试卷及答.. 28页

2020年年级数学上册单元检测及答案(四篇) 28页

2020年部编人教版二年级语文上册期末试卷及答.. 14页

2020年部编版一年级数学上册第一次月考综合检.. 13页

2020年部编版二年级数学上册二单元综合检测卷.. 21页

2020年部编版二年级语文上册一单元试卷及答案.. 14页

2020年部编版年级数学上册期末试卷带答案(四篇.. 26页

2021年一年级语文上册期中考试卷及完整答案 5页

2021年三年级语文上册期中考试(完整) 7页

2021年三年级语文上册期末试卷(参考答案) 7页

2021年人教版一年级数学上册期中试卷及答案【.. 6页

2021年人教版三年级语文下册期末考试题(附答案.. 7页

2021年人教版五年级语文(下册)期末试卷(免费).. 8页