1 / 2
文档名称:

基于Spark的机器学习资料58、Mesos部署提交参数介绍.pdf

格式:pdf   大小:138KB   页数:2页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于Spark的机器学习资料58、Mesos部署提交参数介绍.pdf

上传人:wawa 2023/3/18 文件大小:138 KB

下载得到文件列表

基于Spark的机器学习资料58、Mesos部署提交参数介绍.pdf

文档介绍

文档介绍:该【基于Spark的机器学习资料58、Mesos部署提交参数介绍 】是由【wawa】上传分享,文档一共【2】页,该文档可以免费在线阅读,需要了解更多关于【基于Spark的机器学习资料58、Mesos部署提交参数介绍 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。SparkonMesos部署提交参数介绍
这个只是我提交项目的时候设置的参数,但是大家提交的时候根据自己的服务器情况做相应的修改。一般好多参数
设置默认就可以,但是如果数据量超级大的时候就得一个一个对应设置其参数,我这里只是设置了用到的一小部分
参数,还有好多参数,大家在实际项目中用到的时候再去对应的理解和设置。
下面是提交Kmeans这个类的时候的参数,对应的streaming提交和这个类似,大家根据下面的提交命令修改一下就
行,这里就不做说明了。希望的是大家能举一反三,接下来讲完之后,我回给大家布置一个任务,参照我之前分享
的项目代码,大家自己实现一个具体的项目。
nohupspark-submit----mastermesos://S00002:7077--deploy-mode
cluster--num-executors10--executor-cores4--executor-memory30G--=false--conf
=5--=30g--=1g--conf
=1g--=6000m--=8--conf
"=-XX:+PrintGCDetails-XX:+PrintGCTimeStamps-XX:MaxDirectMemorySize=8g"
-ml-jar/ml-"8000""hdfs://:8020/ml/data/segmentData/"
"hdfs://:8020/ml/test/model/idfmodel/idfmodel6000_8000"
"hdfs://:8020/ml/test/model/kmeansmodel/kmeansmodel6000_8000""6000"
"20">>&
nohup***&:后台运行命令
spark-submit:spark提交命令
--:指定运行的类的全路径
--mastermesos://S00002:7077:指定mesos的运行地址
--deploy-modecluster:指定运行模式为集群模式
--num-executors10:该参数用于设置Spark作业总共用多要少个Executor进程来执行
--executor-cores4:设置每个Executor进程的CPUcore数量
--executor-memory:设置每个Executor进程的内存
--conf:固定的spark配置属性,默认是conf/spark-
=false:是否使用粗粒度模式运行spark任务,当等于true是用粗粒度模式运行
=5:Driver节点使用进程的CPUcore数量
=30g:Driver节点进程的内存大小
=1g:允许Kryo序列化的最大值
=1g:Kryo序列化的初始化值
=6000m:每个Sparkaction(如collect)所有分区的序列化结果的总大小限制
=8:设置默认的分片数量
Spark代码提交到Mesos运行(Spark-submit)
由于服务器资源有限,实在启动不了spark的运行。这里我只给大家演示一下,如何提交代码。大家如果服务器资源
够多,可以按照我的演示去提交一下。
1、提交jar到tomcat
2、修改spark-submit命令,在driver节点提交运行。
./spark-submit----mastermesos://:7077--deploy-mode
cluster:9001/ml-"8000""hdfs://:8020/ml/data/segmentData/"
"hdfs://:8020/ml/test/model/idfmodel/idfmodel6000_8000"
"hdfs://:8020/ml/test/model/kmeansmodel/kmeansmodel6000_8000""6000"
"20">>
项目整体流程跑通,结果展示
同样应为服务器问题,我就不给大家展示结果了,结果无非就是跑完项目以后,产生的分类数据放到mongodb供app
调用。借着这节课,根据之前提供给大家的项目代码,给大家安排一个小型项目任务,如果大家项目中遇到问题,
可以直接咨询我。
项目任务:
1、将我分享的数据按照三个字段(集合名字为:SalesPurchasing)product_id、company_name、product_info自己写代
码导入到mongodb中。
2、用java抽取mongodb中的数据进行IK切词、清洗(去除无用的词语)然后存到hdfs中。
3、利用spark的tf-idf进行特征抽取并进行kmeans算法计算,获得tf-idf和kmeans的模型分别存储到hdfs中。
4、写spark-streaming监控kafka,获取数据加载计算的模型进行数据的分类,然后将分类后的数据写到mongodb中
(新建一个集合,集合名字为:SalesPurchasingRelation),存储字段为product_id、company_name、product_info、
prediction(分类的类别)
5、用java写个例子往kafka中写数据。
备注:数据传送用avro进行序列化。
所有代码编写参考我提供给大家的代码,在我提供的里面都能找到对应的例子,大家改造一下,如果服务器传充足
可以将代码跑起来。跑起来以后,会有两个集合需要处理,大家如果运行成功,可以将SalesPurchasingRelation这个
集合展现给大家看一下,这就是我们要的结果,所有的数据都根据这个集合里面的分类进行操作。

最近更新

汽车涂装工艺的基本原理与技术 37页

互联网使用与公平感——基于CSS2019的实证分析.. 2页

云资源池网络安全策略的分析与设计 2页

汽车涂装工艺中的喷涂流量与工艺速度 27页

二手车工作总结文字版(8篇) 18页

中考备考会议主持稿(12篇) 49页

中学生的生命箴言(5篇) 9页

氧化铝项目的经济可行性研究报告 34页

氧化铝项目的地理位置优势研究 24页

六年级小学生的期末表现评语锦集三篇 16页

氧化铝项目可行性研究报告供应链风险与供应商.. 26页

毕业论文写作编写摘要与关键词的指导 29页

春节安山岳传统习俗中的庆祝活动 22页

中西部项目地区农村老年人两周患病率及影响因.. 2页

中职语文“论述类文本”精准教学策略初探 2页

新能源电动汽车的出口与国际贸易 23页

中考电学实验复习策略探究 2页

中尺度集合预报对川渝地区“8.16”暴雨过程的.. 2页

妈妈下班接孩子放学回家的说说文案(50条) 26页

《工具酶和基因载体》课件 19页

《工程质量管理大纲》课件 26页

《市场调研概述》课件 26页

支原体肺炎的病因学和流行病学控制 23页

2024年杜蕾斯项目合作计划书 61页

膳食营养研究报告 6页

设备检修方案范本 5页

吞食天地2常山赵子龙传 69页

浙江10月自考学前儿童心理卫生与辅导试题及答.. 3页

2022年江苏省中等职业学校学业水平考试试卷+答.. 4页

中外合作办学项目汇报材料 48页