1 / 26
文档名称:

狗大数据平台架构重构.pdf

格式:pdf   大小:2,910KB   页数:26页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

狗大数据平台架构重构.pdf

上传人:1557281760 2018/2/25 文件大小:2.84 MB

下载得到文件列表

狗大数据平台架构重构.pdf

相关文档

文档介绍

文档介绍:酷狗大数据平台架构重构
王劲

目录
重构原因--原有架构
重构原因
•数据收集接口众多,且数据格式混
数据采集乱,基本每个业务都有自己的上报
接口
•直接从接入服务通过rsync同步文件
数据接入•没有数据监控服务
• ETL集中在作业计算前进行处理
数据清洗•存在重复清洗
•大部分作业通过crontab调度
作业调度•经常出现作业调度冲突
平台监控•只有硬件与操作系统级监控
技术架构--大数据的4V特征
非结构化数据的超大规模和增长
体量总数据量的80~90%
Volume 比结构化数据增长快10倍到50倍
是传统数据仓库的10倍到50倍
大数据的异构和多样性
多样性Variety 很多不同形式(文本、图像、视频、机器数据)
无模式或者模式不明显
不连贯的语法或句义
大量的不相关信息
价值密度Value 对未来趋势与模式的可预测分析
深度复杂分析(机器学****人工智能Vs传统商务智能(咨询、报告等)
实时分析而非批量式分析
速度Velocity 数据输入、处理与丢弃
立竿见影而非事后见效
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是
“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。
技术架构--要解决的问题
Velocity
快速的数据流转
Value
Variety Volume
多样的数据类型海量的数据规模
发现数据价值
技术架构--数据流架构
技术架构--整体技术架构
技术架构--数据采集接入