1 / 11
文档名称:

spark搭建手册.pdf

格式:pdf   大小:2,969KB   页数:11页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

spark搭建手册.pdf

上传人:shanhu 2021/6/23 文件大小:2.90 MB

下载得到文件列表

spark搭建手册.pdf

文档介绍

文档介绍:spark 搭建手册
Hadoop+Spark 大数据集群环境
1. 配置集群的准备,文件包如下图:
分布式机器如下:
SparkMaster
SparkWorker1
SparkWorker 2
2. 配置 linux 环境
配置 linux 登录时可以使用 root 账户
配置/etc/hostname,修改主机名 SparkMaster,工作机为 SparkWorker1、
SparkWorker2,重启生效
配置/etc/hosts ,如下图
配置三台机器 SSH 无密码登录
3. 安装 java 环境,安装到/usr/lib/java 目录,配置环境变量,验证成功,如下图
4. 安装 hadoop
将 hadoop 安装到 /usr/local/hadoop 目录,配置环境变量
在$HADOOP_HOME 下,按照下图操作创建目录,如下图
进入$HADOOP_HOME 目录,对配置文件进行如下图配置,如下图
首先,修改 hadoop-,JAVA_HOME=我们 java 安装目录,如下图
然后,修改 yarn-, JAVA_HOME=我们 java 安装目录,如下图
然后,修改 mapred-, JAVA_HOME=我们 java 安装目录,如下图
然后,修改 slaves 文件,将客户机填写到文件中,如下图
然后,修改 core-,填写如图配置,如下图
然后,修改 hdfs-,填写如图配置,如下图
然后,复制一份 mapred- 为 mapred-,如下图
然后,修改 yarn-,填写如图配置,如下图
最后,将 SparkMaster 操作,同步到 SparkWorker1 和 SparkWorker2 上
启动 hadoop
首先,收入 hadoop namenode –format,如下图
然后,启动 hdfs 文件系统,如下图
可以验证是否成功,使用 jps 命令,master 有 3 个进程,worker2 有两个进
程,如下图
同时登录 hdfs 文件系统 web 界面查看配置情况,如下图
然后,启动 yarn 集群,如下图
进行验证,使用 jps 命令,如下图
最后,验证 hadoop 分布式集群
在 hdfs 上,创建两个文件夹,如下图
登录,hdfs 的 web 界面,进行查看,如下图
5. 安装 scala
安装到 /usr/lib/scala 目录下,配置环境变量,验证如下图
所有分布式集群都需要安装。
6. 安装 spark
安装到 /usr/local/spark 目录,配置环境变量
修改 spark 配置文件,进入$SPARK_HOME/conf 目录
修改 slaves 文件,如下图
复制 spark- 到 spark- ,并对其进行修改,如下图
启动 spark 集群,进入 sbin 目录,启动 start- 如下图
启动后,jps 命令,进程列表中会多出一个 master 进程,同样工作机 ,如下

到这里 spark 集群已经启动,我们可以登录 web,进行验证
进入 bin 目录,启动 spark-shell ,如下图
测试验证,spark 集群这里不多做介绍,能成功启动 spark-shell,基本可以
认为集群配置成功。