1 / 13
文档名称:

Spark快速大数据分析课件.pptx

格式:pptx   大小:2,127KB   页数:13页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Spark快速大数据分析课件.pptx

上传人:glfsnxh 2020/8/18 文件大小:2.08 MB

下载得到文件列表

Spark快速大数据分析课件.pptx

文档介绍

文档介绍:Spark快速大数据分析广东航信爱信诺科技公司——研发部 2019-04-18Spark简介1、Spark的定位:是一个用来实现快速而通用的集群计算平台。2、Spark与Hadoop的联系:Spark扩展了mapreduce计算模型,且支持更多的计算模式,包括交互式查询和流处理。3、Spark的主要特点:能够在内存中进行计算,因而更快。即便是在磁盘上进行复杂的计算,Spark依然比mapreduce更高效。Spark简介Spark主要包含了如下图所示的组件:1、SparkCore:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复与存储系统交互等模块,还包含了对弹性分布式数据集(ResilientDistributedDataset)的API定义。2、SparkSQL:是Spark操作结构化数据的程序包,通过SparkSQL可以使用SQL或者ApacheHive版本的SQL方言(HQL)来查询数据。3、SparkStreaming:是Spark提供的对实时数据进行流式计算的组件,如生产环境中的网页服务器日志。4、MLlib:提供机器学****功能的程序库。5、GraphX:操作图的程序库,可以进行并行的图计算。6、集群管理器:为了实现在多个计算节点上高效得伸缩计算,Spark支持在各种集群管理器上运行,包括HadoopYARN、ApacheMesos以及自带的简易调度器,独立调度器,第七章部分会详细探讨管理器的差异以及如何选择合适的集群管理器。核心概念与基本操作弹性分布式数据集(ResilientDistributedDataset,简称RDD):RDD的核心特性是分布式与不可变。Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。每一个Spark应用都由一个驱动器程序(driverprogram)来发起集群上的各种并行操作,驱动器程序通过一个SparkContext对象来访问Spark,使用pythonshell启动时会自动创建一个SparkContext对象,默认变量名为sc。核心概念与基本操作Spark中对数据的所有操作不外乎:1、创建RDD2、转化已有RDD,即转化操作(transformation):由一个RDD生成一个新的RDD3、调用RDD操作进行求值,即行动操作(action):会对一个RDD计算出一个结果创建RDD的方式:1、通过已有集合生成,用于原型开发和测试 lines=([“hello",“helloworld])2、从外部存储中读取数据 lines=("/path/to/")核心概念与基本操作转化操作举例:1、filter操作筛选出RDD1中满足条件的元素构成新的RDD,以下意为选出大于5的元素构成新RDD newRDD=(lambdax:x>5)2、map操作对RDD1中的每个元素进行函数操作后,将结果构成新的RDD,以下意为对RDD中的每个元素进行平方构成新RDD newRDD=(lambdax:x**2)3、flatMap操作和map操作类似,但是如果操作后的结果为一个列表,则取出列表中的元素构成新RDD,而非将列表构成新RDD newRDD=(lambdax:(""))核心概念与基本操作其中map()和flatMap()操作的区别如下图所示:核心概念与基本操作行动操作举例:1、count操作用于RDD计数 print("Inputhas"+()+"errorlines")2、take操作用于取出RDD默认排序前n个元素 (5): print(line)核心概念与基本操作操作中可能会设计传递各种函数,spark传递函数主要有以下几种方式:1、传递函数较简单,可通过匿名函数 wordRDD=(lambdax:'word'inx)2、传递顶层或局部定义的函数 defcontainsError(s): return"error"ins errorRDD=(containsError)核心概念与基本操作Spark具有惰性计算的特性:意思是只有在一个RDD第一次执行行动操作时,才会真正计算。举例来说,RDD2由RDD1生成,但是只有在RDD2执行行动操作时,才会开始计算RDD2,而不是在RDD1生成RDD2时就进行计算。但Spark会使用谱系图(lineagegragh)来记录不同RDD之间的依赖关系,如下图默认情况下,Spark的RDD会在每次对他们进行行动操作时重新计算,如果重用同一个RDD,可