文档介绍：spark 搭建手册
Hadoop+Spark 大数据集群环境
1. 配置集群的准备，文件包如下图：
分布式机器如下：
SparkMaster
SparkWorker1
SparkWorker 2
2. 配置 linux 环境
配置 linux 登录时可以使用 root 账户
配置/etc/hostname，修改主机名 SparkMaster，工作机为 SparkWorker1、
SparkWorker2，重启生效
配置/etc/hosts ，如下图
配置三台机器 SSH 无密码登录
3. 安装 java 环境，安装到/usr/lib/java 目录，配置环境变量，验证成功，如下图
4. 安装 hadoop
将 hadoop 安装到 /usr/local/hadoop 目录，配置环境变量
在$HADOOP_HOME 下，按照下图操作创建目录，如下图
进入$HADOOP_HOME 目录，对配置文件进行如下图配置，如下图
首先，修改 hadoop-，JAVA_HOME=我们 java 安装目录，如下图
然后，修改 yarn-, JAVA_HOME=我们 java 安装目录，如下图
然后，修改 mapred-, JAVA_HOME=我们 java 安装目录，如下图
然后，修改 slaves 文件，将客户机填写到文件中，如下图
然后，修改 core-，填写如图配置，如下图
然后，修改 hdfs-,填写如图配置，如下图
然后，复制一份 mapred- 为 mapred-，如下图
然后，修改 yarn-,填写如图配置，如下图
最后，将 SparkMaster 操作，同步到 SparkWorker1 和 SparkWorker2 上
启动 hadoop
首先，收入 hadoop namenode –format，如下图
然后，启动 hdfs 文件系统，如下图
可以验证是否成功，使用 jps 命令，master 有 3 个进程，worker2 有两个进
程，如下图
同时登录 hdfs 文件系统 web 界面查看配置情况，如下图
然后，启动 yarn 集群，如下图
进行验证，使用 jps 命令，如下图
最后，验证 hadoop 分布式集群
在 hdfs 上，创建两个文件夹，如下图
登录，hdfs 的 web 界面，进行查看，如下图
5. 安装 scala
安装到 /usr/lib/scala 目录下，配置环境变量，验证如下图
所有分布式集群都需要安装。
6. 安装 spark
安装到 /usr/local/spark 目录，配置环境变量
修改 spark 配置文件，进入$SPARK_HOME/conf 目录
修改 slaves 文件，如下图
复制 spark- 到 spark- ，并对其进行修改，如下图
启动 spark 集群，进入 sbin 目录，启动 start- 如下图
启动后，jps 命令，进程列表中会多出一个 master 进程，同样工作机 ,如下
图
到这里 spark 集群已经启动，我们可以登录 web，进行验证
进入 bin 目录，启动 spark-shell ，如下图
测试验证，spark 集群这里不多做介绍，能成功启动 spark-shell，基本可以
认为集群配置成功。