1 / 13
文档名称:

hadoop物联网数据挖掘的算法分析.docx

格式:docx   大小:20KB   页数:13页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

hadoop物联网数据挖掘的算法分析.docx

上传人:麒麟才子 2022/7/15 文件大小:20 KB

下载得到文件列表

hadoop物联网数据挖掘的算法分析.docx

相关文档

文档介绍

文档介绍:2
Hadoop物联网数据挖掘的算法分析
摘要:介绍了物联网数据处理的若干关键技术,如大数据采集、大数据存储、大数据的分析与挖掘等。以Hadoop为平台对物联网数据进行挖掘与分析,为了提高处理浩大数据的实效性,基于MapReduce且合并同一KEY值,再通过Reduce函数化简,最终输出最终结果值。
6

3数据挖掘算法分析

MapReduce架构具有简易性、效率高、靠谱性以及并行的运算方式等特点,同时MapReduce架构的运用广度也有局限性,不能实现全部算法的应用。因此,最关键的是此算法需满足可伸缩性的特点,这里接受三类算法:分类算法、聚类算法和关联规章算法,争论改造并且能够应用到MapReduce架构中。



朴实贝叶斯分类算法[5](NaiveBayesianclassifi-cation,NBC),即将全部数据进行分类,先以一个特定的点定义好类别,建筑一个分类器,其作用是将待定的数据先通过映射,划分到确定的类别。简言之,首先需构建一个分类器,获得某个已知样本的先验概率的前提,再运用贝叶斯公式:()()()()PABPBPBAPA=⑴得出一个后验概率,最终确定后验概率最大的类是对象所属的类。朴实贝叶斯分类算法接受的是扫描式方式,其算法操作如下:⑴Main函数:读取数据集;⑵Map函数:计算离散属性取值的总和、其连续属性的平均值μ以及标准差δ;⑶Reduce函数:整合输出统计值;⑷Main函数:由步骤3的结果生成分类器。
7

-modes聚类算法

K-modes聚类算法[6],即先将对象进行聚集划分成不同的类别和子集,通过静态分类的方法将相像的成员对象分为一类,以区分于其他簇中的对象。由于这种方式不需要进行人工标注处理,因而具有确定的自适应性即无需看管监督的算法。K-modes算法不仅其算法思想简洁实现,而且本身简洁易用,因此成为最常用的聚类算法之一。K-modes算法是K-means算法基础上的延长,不仅可以处理数值型数值,也可以处理分类属性型的数据,这是一个大的改进。K-modes算法可以很好的处理数量少的数据集,同时也可以高效处理浩大的数据集,其算法时间简洁度为O(tnkm),共同准备于迭代数t,数据集中对象数n,划分子类数k,以及属性数量m。K-modes算法中modes可直接描述每一个类的属性和特性,便于解析聚类结果。K-modes算法是收敛的。以上是传统的K-modes算法的优点,其也有缺点。K-modes算法虽然是收敛的,但是Huang证明其只能在局限收敛中实现最小值,在全局收敛中实现不了。聚类算法的好坏取决于相异度度量方法,K-modes算法在呈现两者的差异性不占优势。聚类算法中modes准备了结果的精确度,而此算法的modes不是独一无二的。因此,接受改进的K-modes算法。K-modes聚类算法[7]接受迭代式的方式,其算法操作如下。⑴main函数:读取数据集中的初始中心点。⑵map函数:主要计算差异值、众数和目标函数值。⑶main函数:最终读取和推断目标函数值,若连续两轮的结果无变化,则结束这次过程,得出中心点,反之需要进行下一轮的迭代进程。因此,聚类算法的应用能够将类内对象的相像性达到最大,类间对象的相像性尽量的小,从而可以更好的区分对象间的差别。
7



关联规章挖掘算法的主要作用是找出不同项集之间的关联性,并且应用到大数据中。例如,顾客去便利超市买东西,观看分析顾客的购物车,会发觉商品间的联系。因而调整商品的摆放位置,可以更好的促销商品。ECLAT算法[8]其本质是一种频繁项集挖掘算法,其异于传统的数据结构,是基于垂直数据结构格式。其工作流程如下:首先全面扫描全部数据,然后将数据的格式呈现为垂直的,最终得到一个项集的长度值,即项集支持度的计数。依据算法Apriori的特性,从K=1开头,对频繁K项集的交进行计算,构建备选的K+1项集并且选出第K+1项时,反复操作,将K的值加一,当不能挖掘出频繁项集便结束这个工作。ECLAT频繁项集挖掘算法也是接受迭代式,其算法操作如下。⑴Main函数:读取上一轮的挖掘数据。⑵Map函数:存储垂直K项集。⑶Reduce函数:对垂直K项集挖掘出频繁K项集。⑷Main函数:读取最终的Reduce函数中的结果,假如不是空值,连续进行下一轮挖掘,反之就结束此程序。因此,ECLAT算法的最大优势是更快地找出数据间的关联性,为数据挖掘供应了很好的解决方法。
8

4应用前景

随着物联网技术的进

最近更新

2024年手提秤项目资金筹措计划书代可行性研究.. 66页

2024年石膏矿项目投资申请报告代可行性研究报.. 69页

2024年工艺用压缩机项目建议书 56页

2024年妇产科用手术器械合作协议书 67页

2024年多工位精密级进冲模项目发展计划 50页

2024年测定仪安全仪器项目建议书 58页

高中化学竞赛——大学有机化学(2) 21页

高一数学A必修2 第一章 1.2.2 空间几何体的三.. 32页

高一地理必修一带Flash 57页

高二数学上期调研考试情况通报及本期教学安排.. 12页

生物化学习题及答案 297页

人教版数学四年级下册《图形的运动二轴对称 12页

人教版化学选修4第四节《难溶电解质的溶解平衡.. 32页

《巧用小标题结构作》课件 23页

林卓然VB教程循环结构第5章教案 54页

纺织产业链协同创新与数字化转型 27页

高中数学精品讲学案 2.2.1对数与对数的运算精.. 7页

《应急救援知识》课件 28页

《建模中的统计方法》课件 34页

驾照考试科目一-10 真题-无答案 9页

肇庆裹蒸粽行业报告 28页

云南省市政基础设施工程施工质量验收统一规程.. 82页

绘画心理学 2页

2021年歌颂祖国的三句半台词 8页

机械设备投标书范本1 37页

少先队六知六会 1页

景观工程新材料在当代景观中的应用 6页

认罪认罚从宽制度的理解与适用课件 25页

基于PLC电梯控制系统设计 35页

《JJF1069-2016《法定计量检定机构考核规范》.. 3页