1 / 80
文档名称:

Spark大数据分析实战课件.pptx

格式:pptx   大小:1,916KB   页数:80页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Spark大数据分析实战课件.pptx

上传人:gxngqvk 2022/7/26 文件大小:1.87 MB

下载得到文件列表

Spark大数据分析实战课件.pptx

相关文档

文档介绍

文档介绍:Spark大数据分析
演讲人
2020-12-02
01
Spark简介
Spark简介
D
Spark架构
E
RDD
A
Spark执行特点
B
Spark优势
sk分发给Executor执行
Spark组件
SparkEnv
线程级别的上下文
Spark组件
运行逻辑
作业提交
Client->Master-> Worker->Driver->Master->RDD->Stage DAG -> TaskScheduler-> Executor
作业执行
Shuffle
Spark简介
RDD
RDD的重要内部属性
Spark计算工作流
弹性分布式数据集
RDD创建方式
RDD的两种操作算子
RDD创建方式
01
1. HDFS输入创建
02
2. 父RDD转换
03
3. paralleize或makeRDD将单机数据创建为分布式RDD
RDD的两种操作算子
转换(Transformation)
延迟计算
map, flatMap, mapPartitions...
行动(Action)
触发提交作业Job
foreach, saveAsTextFile...
RDD的重要内部属性
对父RDD的依赖列表
对key-value pair数据类型RDD的分区器, 控制分片策略和分区数
计算每个分片的函数
每个数据分区的地址列表
分区列表
02
BDAS
BDAS
SQL on Spark(替代Hive)
A
1. Catalyst架构及执行流程
2. SparkSql优化策略
B
Spark Streaming(替代Storm)
优势与特点
1. 多范式数据分析管道
2. 扩展性, 可运行在100个节点以上的集群
3. 容错性
4. 吞吐量大(超过Storm)
5. 实时性比Storm略低(batch ~2S, storm为100ms)
Spark Stream架构
BDAS
GraphX(替代GraphLab)
BDAS
MLlib(替代Mahout)
03
Lamda架构日志分析流水线
Lamda架构日志分析流水线
日志分析指标
PV
01
UV
02
留存率
05
漏斗模型与转化率
04
PVUV
03
Lamda架构日志分析流水线
Lamda架构
01
02
03
速度层(Speed Layer)
批处理层(Batch Layer)
服务层(Serving Layer)
实时日志分析流水线架构
Flume NG
数据采集
01
02
Flume 汇总到Kafka
数据汇总和转发
Spark Streaming
数据处理
03
04
Flask
结果呈现
离线日志分析流水线架构
Flume转储到HDFS
数据存储
Spark SQL
数据处理
Flask
结果呈现
04
基于云平台和用户日志的推荐系统
基于云平台和用户日志的推荐系统
系统架构
数据收集聚合
数据处理
结果输出
离线训练
Spark MLlib中的ALS模型
05
分布式的搜索引擎
分布式的搜索引擎
计算网页的PageRank值
06
微博情感分析
微博情感分析
数据收集
热点微博分析
Spark SQL进行离线分析
系统架构
数据预处理和Cassandra存储
在线情感分析
微博情感分析
微博可视化
热点新闻分析系统
微博情感分析
系统架构