1 / 9
文档名称:

spark面试题Miles.docx

格式:docx   大小:3,457KB   页数:9页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

spark面试题Miles.docx

上传人:Alone-丁丁 2021/8/17 文件大小:3.38 MB

下载得到文件列表

spark面试题Miles.docx

文档介绍

文档介绍:spark面试题Miles
D
,Partition List。这里的分区概念类似hadoop中的split切片概念,即数据的逻辑切片
            (切片)的计算函数,即同一个RDD的每个切片的数据使用相同的计算函数
           
            ,如果是(Key,Value)型的RDD,可以带分区类
            ,首选块位置列表(hdfs block location);
简要描述Spark分布式集群搭建的步骤
1. 下载Spark的发⾏行行版
2. 解压缩⽂文件
3. 设置环境变量量
cd spark--bin-
export SPARK_HOME=`pwd`
export PATH=${SPARK_HOME}/bin:$PATH
4. 本地运⾏行行Spark
运⾏行行SparkPi
$SPARK_HOME/bin/run-example SparkPi
运⾏行行spark-shell
$SPARK_HOME/bin/spark-shell
在提示符中开始运⾏行行Spark程序
5. 集群模式运⾏行行Spark
配置集群模式
cd $SPARK_HOME/conf
vim spark-
加⼊入如下内容
HADOOP_CONF_DIR=/home/bigdata/hadoop-(Hadoop的安装⻅见参考⽂文档
运⾏行行SparkPi
export MASTER=yarn-client
$SPARK_HOME/bin/run-example SparkPi
export MASTER=yarn-cluster
$SPARK_HOME/bin/run-example SparkPi
运⾏行行Spark-shell
$SPARK_HOME/bin/spark-shell --master yarn-client
spark on yarn的两种模式? client 模式? 和cluster模式?
yarn-cluster和yarn-client模式的区别其实就是Application Master进程的区别,yarn-cluster模式下,driver运行在AM(Application Master)中,它负责向YARN申请资源,并监督作业的运行状况。当用户提交了作业之后,就可以关掉Client,作业会继续在YARN上运行。
而yarn-client模式下,Application Master仅仅向YARN请求executor,client会和请求的container通信来调度他们工作,也就是说Client不能离开。
数据倾斜
Spark如何处理非结构化数据?
通过Scala的函数式编程进行基于RDD的非结构化数据处理。
快在哪里呢?Spark和Mapreduce快? 为什么快呢? 快在哪里呢?
统一的RDD抽象和操作
基于内存的迭代式计算 
它可以把整