1 / 39
文档名称:

大数据分析关键技术资料.pptx

格式:pptx   页数:39页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据分析关键技术资料.pptx

上传人:分享精品 2016/4/15 文件大小:0 KB

下载得到文件列表

大数据分析关键技术资料.pptx

相关文档

文档介绍

文档介绍:大数据分析关键技术目录?概述?即席查询?批量处理?流式计算大数据计算分析模式分类即席查询 Ad-Hoc Query 批量处理 Batch Processing Map/Reduce 流式计算 puting 数据承载响应时间适用场景磁盘秒级(准实时) 自然人交互式经营分析磁盘分钟级至小时级(准实时) 事前/事后大批量数据处理内存(事件窗口非全量数据) 秒级(实时) 实时事件分析实时风险干预针对不同的业务领域,需要采用不同的数据计算分析方式,快速发现数据价值。即席查询即席查询( Ad Hoc )是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是用户自定义查询条件。即席查询 Storage Distribute File System Column Database Resource Management pute Framework SQL Syntax+ Compute Framework SQL Syntax Met a Data Batch Processing Ad-Hoc Query 实时性:高批量处理 Storage Distribute File System Column Database Resource Management pute Framework SQL Syntax+ Compute Framework SQL Syntax Met a Data Batch Processing Ad-Hoc Query MapReduce 是一种编程模型,用于大规模数据集的并行批量计算。概念 Map 和 Reduce 当前的主流实现是指定一个 Map 函数,用来把一组键值对映射成一组新的键值对,指定并发的 Reduce 函数,用来保证所有映射的键值对中的每一个共享相同的键组。形成这种模型的原因是:数据的分布式存储、计算资源的分布式、并行计算减少计算时长。批量处理实时性:低流式计算流数据的实时计算注重对流数据的快速高效处理、计算和分析。其特点是计算过程数据不落地,所有数据在内存中完成。其计算模型是根据规则生成容器,当数据流经过容器时,实时产生分析结果。流式计算 Inpu t Adap ter Outp ut Adap ter Engine Cluster Cluster Management Rule Repository NoSQL 实时性:高目录?概述?即席查询?批量处理?流式计算 Impala Node Impala 架构 Impalad Query Planner Query Coordinator Query Exec m on HiveQL & Interface MetaData SQL JDBC Hive MetaStore HDFS NN State Store Impalad Query Planner Query Coordinator Query Exec Engine Impalad Query Planner Query Coordinator Query Exec Engine Data HDFS DN HBase Data HDFS DN HBase Data HDFS DN HBase Impala Node Impala Node Local Direct Reads Thrift Hive 架构 Data HDFS DN Task Tracker Job Tracker Name Node Hadoop Hive (Over Hadoop ) SQL JDBC WUI Thrift Serve r Driver (Compiler, Optimizer, Executor) Meta Store ? ThriftServer :J DBC 通过 ThriftServer 连接到 Hive 。 ThriftServer 连接 MetaStore 来读取 hive 的元数据信息。? MetaStore :在关系型数据库中存放表/分区/列元数据, 可以低延迟的快速的访问到需要的元数据信息。? Driver/ piler / ExecutionEn gine :客户端提交的 HiveSQL 首先进入 Driver ,然后 Driver 会为此次 HiveSQL 的执行创建一个 Session , Driver 维护整个 session 的生命周期。 Driver 首先将 HiveSQL 传送给 piler , 然后由 piler 来对用户提交的 HiveSQL 进行编译/检查/优化并最终生成 MapReduce 任务。? ExecutionEngi

最近更新

2025年写走路初三作文850字(精选20篇) 40页

2025年南山实验学校七年级数学第一学期期末学.. 11页

2025年写给自己的一封信作文250字(共14篇) 16页

2025年写给中学老师的感谢信(锦集8篇) 13页

2025年北师大版二年级数学下册教学计划 5页

2025年写狗的观察日记100字(共10篇) 13页

2025年写游泳老师的作文(共21篇) 22页

2025年写梅花的作文三年级(精选14篇) 14页

2025年写春夏秋冬的作文150字(整理24篇) 24页

2025年初级经济师运输经济水路专业知识与实务.. 14页

2025年写夕阳的作文300字(集锦18篇) 18页

2025年初中数学鲁教版(五四制)七年级下册期中.. 15页

2025年写六一的优秀作文(集锦14篇) 18页

2025年切削液技术知识讲解 8页

2025年写事作文600字(集锦26篇) 42页

2025年冷链医疗器械管理培训试题 6页

2025年内蒙古扎兰屯市八年级结业考试模拟模拟.. 7页

2025年典型轴类零件的数控车削工艺与加工实验.. 11页

2025年关于医务科工作计划合集九篇 25页

消费者信任与品牌忠诚-洞察分析 43页

锡林郭勒盟航空摄影测量技术设计 7页

校园广播系统安装合同 5页

中职计算机应用基础教案 9页

综评研究性学习及创新成果范例 9页

新型建筑装饰材料的性能评估 24页

(部编版)三年级上道德与法治《安全记心上》全.. 25页

《德井义实的拉链拉下来》第二届管卡拉OK部分.. 1页

人才引进面试模拟题 5页

铁谱分析技术在油液监测中的应用 22页

分辨心理学对基督教的影响 17页