文档名称：

2022年spark面试题Miles.docx

格式：docx 大小：21KB 页数：8页

下载后只包含 1 个 DOCX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

2022年spark面试题Miles.docx

上传人:业精于勤 2021/12/16 文件大小：21 KB

下载得到文件列表

2022年spark面试题Miles.docx

相关文档

文档介绍

文档介绍：hadoop和spark都是并行计算，那么她们有什么相似和区别？ 
两者都是用mr模型来进行并行计算，hadoop一种作业称为job，job里面分为map task和reduce task，每个task都是在自己进程中运营，当task结束时，进程也会结束。 
spark顾客提交任务成为application，一种application相应一种sparkcontext，app中存在各种job，每触发一次action操作就会产生一种job。 
这些job可以并行或串行执行，每个job中有各种stage，每个stage里面有各种task，构成taskset由TaskSchaduler分发到各个executor中执行，executor生命周期是和app同样，虽然没有job运营也是存在，因此task可以迅速启动读取内存进行计算。 
hadoopjob只有map和reduce操作，表达能力比较欠缺并且在mr过程中会重复读写hdfs，导致大量io操作，各种job需要自己管理关系。 
spark迭代计算都是在内存中进行，API中提供了大量RDD操作如join，groupby等，并且通过DAG图可以实现良好容错。
简朴说一下hadoop和sparkshuffle过程？ 
hadoop：map端保存分片数据，通过网络收集到reduce端。 
spark：sparkshuffle是在DAGSchedular划分Stage时候产生，TaskSchedule要分发Stage到各个workerexecutor。 
减少shuffle可以提高性能。
17、RDD机制？ 
rdd分布式弹性数据集，简朴理解成一种数据构造，是spark框架上通用货币。 
所有算子都是基于rdd来执行，不同场景会有不同rdd实现类，但是都可以进行互相转换。 
rdd执行过程中会形成dag图，然后形成lineage保证容错性等。 
从物理角度来看rdd存储是block和node之间映射。
18、spark有哪些组件？ 
（1）master：管理集群和节点，不参加计算。 
（2）worker：计算节点，进程自身不参加计算，和master报告。 
（3）Driver：运营程序main办法，创立spark context对象。 
（4）spark context：控制整个application生命周期，涉及dagsheduler和task scheduler等组件。 
（5）client：顾客提交程序入口。
19、spark工作机制？ 
顾客在client端提交作业后，会由Driver运营main办法并创立spark context上下文。 
执行rdd算子，形成dag图输入dagscheduler，按照rdd之间依赖关系划分stage输入task scheduler。 
task scheduler会将stage划分为task set分发到各个节点executor中执行。
20、spark优化怎么做？ 
通过spark-env文献、程序中sparkconf和set property设立。 
（1）计算量大，形成lineage过大应当给已经缓存了rdd添加checkpoint，以减少容错带来开销。 
（2）小分区合并，过小分区导致过多切换任务开销，