1 / 31
文档名称:

Spark平台在电信运营商的应用实践.pdf

格式:pdf   大小:841KB   页数:31页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Spark平台在电信运营商的应用实践.pdf

上传人:977562398 2019/11/18 文件大小:841 KB

下载得到文件列表

Spark平台在电信运营商的应用实践.pdf

相关文档

文档介绍

文档介绍:Spark平台在电信运营商的应用实践亚信⼤数据平台⽥毅⺫录★项⺫实践分享★基于Spark改造⽤户标签分析查询平台★基于SparkStreaming改造内容识别处理平台★⼀些⼼得分享★如何⽤好ExternalDataSourceAPI★⾼效的在SparkStreaming中引⽤外部数据○基于Spark改造⽤户标签分析查询平台3○基于Spark改造⽤户标签分析查询平台•改造前的设计TCL脚本⽤户数据清洗指标计算标签计算数据探索客户群计算通信数据接⼝表指标表标签表上⺴数据SQL数据库4○基于Spark改造⽤户标签分析查询平台•改造前的问题•1标签数量越来越⼤,数据库负载过⾼,扩展成本⾼•2标签表的列数随着标签数量增加不断增多,部分现场达到2000+,只能通过分表的⽅式解决,查询时需要Join操作•3标签与指标的计算⽆法摆脱SQL的约束,⽆法快速集成机器学****的算法○基于Spark改造⽤户标签分析查询平台•第⼀次改造设计:⼩试⽜⼑TCL脚本⽤户数据清洗指标计算标签计算数据探索客户群计算通信数据接⼝表指标表标签表SparkSQL上⺴数据HDFS数据库6○基于Spark改造⽤户标签分析查询平台•改造后的好处•1使⽤SparkSQL+Parquet的⽅案,有效保证了查询效率•2原有系统基本不⽤太⼤改造•3查询系统具备平⾏扩展能⼒•未解决的问题•1标签与指标的计算⽆法摆脱SQL的约束,⽆法快速集成机器学****的算法•产⽣出来的新问题•1增加了从数据库倒出数据,加载到HDFS的额外步骤•2增加了从⽂本数据转化为Parquet格式的额外步骤○基于Spark改造⽤户标签分析查询平台•第⼆次改造设计:⼤⼑阔斧SparkSQL⽤户数据清洗指标计算标签计算数据探索客户群计算通信数据接⼝表指标表标签表上⺴数据SparkSQLHDFS8○基于Spark改造⽤户标签分析查询平台•改造后的好处•1通过SparkSQL替换掉了原有的数据库,整个系统的扩展性进⼀步增强•2两套SparkSQL可以根据各⾃忙闲时的不同,共享整个系统的计算资源•遗留的问题•1没有摆脱标签分析算法对于SQL的依赖•2系统前端仍然依赖ETL系统对数据进⾏抽取加载•怎么破?○基于Spark改造⽤户标签分析查询平台••ExternalDatasourceAPI进⼀步增强•DataFrame提供了丰富多样的数据源⽀持•DataFrame提供了⼀整套⽤于操纵数据的DSL