1 / 38
文档名称:

大数据分析关键技术概述.ppt

格式:ppt   大小:2,862KB   页数:38页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据分析关键技术概述.ppt

上传人:erterye 2020/12/25 文件大小:2.79 MB

下载得到文件列表

大数据分析关键技术概述.ppt

文档介绍

文档介绍:大数据分析关键
技术
概述
·即席查询
批量处理
流式计算
大数据计算分析模式分类
数据承载
响应时间
适用场景
即席查询
磁盘
秒级
自然人交互式
c Query
往实时)
经营分析
批早处理
Batch Processing
磁盘
事前/事后
Map/Reduce
C准实时)
大批≡数据处理
流式计算
实时事件分析
Stream Computing
非全呈数据)
(实时)
实时风险干预
针对不同的业务领域,需要采用不同的数据计算分析方式,快速发现数据价值。
即席查询
实时性:高
即席查询( Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成
相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是用
户自定义查询条件
Batch processor
ing Ad-Hoc Query
SQL Syntax
SQL Syntax+
Framework
Compute Framework
Resource Management
Distribute Fi
Syst
批量处理
实时性:低
批早处理
MapReduce是种编程模型,用于大规模数据集的并行批量计算。概念Map和 Reduce当前的主流
实现是指定个Map函数,用来把鉅键值对映射成一组新的键值对,指定并发的 Reduce函数,用来保
证所有映射的键值对中的每一个共亨相同的鞬组
形成这种模型的原因是:数据的分布式存储、计箅资源的分布式、并行计箅减少计箅时长
Batch process
Ad-Hoc Query
sol Suntay
SQL Syntax+
Framework
Compute Framework
Resource Management
Distribute Fi
System
流式计算
实时性:高
流数据的实时计箅注重对洈数据的快速髙效处理、计箅和分析。其特点是计算过程数据不落地,所有
数据在内存中完成。其计箅模型是根据规则生成客器,当数据流经过容器时,实时产生分析结果
Engine Cluster
C
ule
概述
即席查询
批量处理
流式计算
Impala架构
HDFS State
NN Store
rface
Impala
Impala
Impala
anner
Query Planner
Dat
Data
Data
HDES
HDES
DN HBase
HBase
Impala Node
Impala node
Impala node
Local direct
Thrift
Hive架构
Thriftserver:JDBC通过 Thrift server
Thriftserve连接
MetaStore来读取hive的元数据信忘。
在关系型数据库中存放表
分区/列元数据,可以低延迟的快速的
访问到需要的元数据信忠。
Driver/Query compiler/ExecutionEn
Driver,然后Drve会为此次 HiveSQ
Meta Store
的执行创建一个 Session, Driver维护
将 HiveSQL传送给 Query Compiler
然后由 Query Compile来对用户提交
opTiMizer
的 HiveSQL进行编译/检杳/优化并最终
成 MapReduce任务
Hive(Over Hadoop . x)
ExecutionEngine会与 Hadoop进行交
来执行,并从 Hadoop取得最终的行
结果,并返回给用户
Data
解析 HiveSQL之后生成所Me
任努,在运行中访问元数据信息时,将直接
读取生成的物理计划时产生的 plan. xml,此
文件会被放入 Hadoop的分布式缴存
Hadoop
MapReduce任务可以从分布式缓存中获得相
Impala相对于Hive的优势
pala不需妥把中间结果写入磁盘,省掉了大≡的IO开销
作业调兮掉了 MapReducef'业启动的开销。 MapReduce启动tsk的速度很慢(默认每个心跳间
隔是3秒钟), Impala直接通过相应的服务进程来进行作业调度,速度快了很多
a借鉴了MPP并行数据库的思想,可以做更多的查询优化,从而省掉不必要E
数据访使用了支持 Data localityAJI/Oi度机制,尽可能地将数据和计算分配在同一台机器上进行
减少了网络开销
用C