1 / 29
文档名称:

大数据实时处理架构实践.pdf

格式:pdf   大小:1,073KB   页数:29页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据实时处理架构实践.pdf

上传人:rovend 2021/4/15 文件大小:1.05 MB

下载得到文件列表

大数据实时处理架构实践.pdf

文档介绍

文档介绍:大数据实时处理架构实践
朱健
提纲
 实时计算简介
 一个工程实践
 系统设计建议
 讨论和展望
什么是实时计算
 低延时的流式数据处理
 离线计算的补充
 业务发展和技术进步的必然需求

 关键点
 分布式流式数据
 低延迟
实时计算的要求
功能 性能
正确 可靠
如此多的选择
构建实时计算系统难点
 坏消息:四座大山


功能 性能 正确 稳定


 误区:不是离线任务的实时化
一个工程实践例子
业务需求和挑战
 实时呈现广告主展示、点击、消耗数据
• 数据量大:10w+ QPS
• 数据延时低:一分钟之内
• 数据准确无误
• 高可靠7x24
系统构想图
输入数据 计算 结果存储
离线计算
流式
计算 结果存储
数据 实时计算
kafka spark streaming mysql
Spark streaming简介
RDD:分布式的可恢复数据集合,spark基于此做运算
Dstream:把stream离散化成单个的RDD,运行spark引擎
实际的系统架构
HDFS
clicks Rdd1+offset1
UNION
GROUP result mysql
COUNT,SUM
impr Rdd2+offset2
check
Error-
monitor point
detect
Ignore- Check-
bomb Start-stop
mark point
HDFS Spark-sql mysql