文档介绍:该【基于Spark的机器学习资料58、Mesos部署提交参数介绍 】是由【wawa】上传分享,文档一共【2】页,该文档可以免费在线阅读,需要了解更多关于【基于Spark的机器学习资料58、Mesos部署提交参数介绍 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。SparkonMesos部署提交参数介绍
这个只是我提交项目的时候设置的参数,但是大家提交的时候根据自己的服务器情况做相应的修改。一般好多参数
设置默认就可以,但是如果数据量超级大的时候就得一个一个对应设置其参数,我这里只是设置了用到的一小部分
参数,还有好多参数,大家在实际项目中用到的时候再去对应的理解和设置。
下面是提交Kmeans这个类的时候的参数,对应的streaming提交和这个类似,大家根据下面的提交命令修改一下就
行,这里就不做说明了。希望的是大家能举一反三,接下来讲完之后,我回给大家布置一个任务,参照我之前分享
的项目代码,大家自己实现一个具体的项目。
nohupspark-submit----mastermesos://S00002:7077--deploy-mode
cluster--num-executors10--executor-cores4--executor-memory30G--=false--conf
=5--=30g--=1g--conf
=1g--=6000m--=8--conf
"=-XX:+PrintGCDetails-XX:+PrintGCTimeStamps-XX:MaxDirectMemorySize=8g"
-ml-jar/ml-"8000""hdfs://:8020/ml/data/segmentData/"
"hdfs://:8020/ml/test/model/idfmodel/idfmodel6000_8000"
"hdfs://:8020/ml/test/model/kmeansmodel/kmeansmodel6000_8000""6000"
"20">>&
nohup***&:后台运行命令
spark-submit:spark提交命令
--:指定运行的类的全路径
--mastermesos://S00002:7077:指定mesos的运行地址
--deploy-modecluster:指定运行模式为集群模式
--num-executors10:该参数用于设置Spark作业总共用多要少个Executor进程来执行
--executor-cores4:设置每个Executor进程的CPUcore数量
--executor-memory:设置每个Executor进程的内存
--conf:固定的spark配置属性,默认是conf/spark-
=false:是否使用粗粒度模式运行spark任务,当等于true是用粗粒度模式运行
=5:Driver节点使用进程的CPUcore数量
=30g:Driver节点进程的内存大小
=1g:允许Kryo序列化的最大值
=1g:Kryo序列化的初始化值
=6000m:每个Sparkaction(如collect)所有分区的序列化结果的总大小限制
=8:设置默认的分片数量
Spark代码提交到Mesos运行(Spark-submit)
由于服务器资源有限,实在启动不了spark的运行。这里我只给大家演示一下,如何提交代码。大家如果服务器资源
够多,可以按照我的演示去提交一下。
1、提交jar到tomcat
2、修改spark-submit命令,在driver节点提交运行。
./spark-submit----mastermesos://:7077--deploy-mode
cluster:9001/ml-"8000""hdfs://:8020/ml/data/segmentData/"
"hdfs://:8020/ml/test/model/idfmodel/idfmodel6000_8000"
"hdfs://:8020/ml/test/model/kmeansmodel/kmeansmodel6000_8000""6000"
"20">>
项目整体流程跑通,结果展示
同样应为服务器问题,我就不给大家展示结果了,结果无非就是跑完项目以后,产生的分类数据放到mongodb供app
调用。借着这节课,根据之前提供给大家的项目代码,给大家安排一个小型项目任务,如果大家项目中遇到问题,
可以直接咨询我。
项目任务:
1、将我分享的数据按照三个字段(集合名字为:SalesPurchasing)product_id、company_name、product_info自己写代
码导入到mongodb中。
2、用java抽取mongodb中的数据进行IK切词、清洗(去除无用的词语)然后存到hdfs中。
3、利用spark的tf-idf进行特征抽取并进行kmeans算法计算,获得tf-idf和kmeans的模型分别存储到hdfs中。
4、写spark-streaming监控kafka,获取数据加载计算的模型进行数据的分类,然后将分类后的数据写到mongodb中
(新建一个集合,集合名字为:SalesPurchasingRelation),存储字段为product_id、company_name、product_info、
prediction(分类的类别)
5、用java写个例子往kafka中写数据。
备注:数据传送用avro进行序列化。
所有代码编写参考我提供给大家的代码,在我提供的里面都能找到对应的例子,大家改造一下,如果服务器传充足
可以将代码跑起来。跑起来以后,会有两个集合需要处理,大家如果运行成功,可以将SalesPurchasingRelation这个
集合展现给大家看一下,这就是我们要的结果,所有的数据都根据这个集合里面的分类进行操作。