1 / 4
文档名称:

大数据下数据挖掘算法综述.doc

格式:doc   大小:38KB   页数:4页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据下数据挖掘算法综述.doc

上传人:阿哈哈哈吧哈哈哈 2021/2/6 文件大小:38 KB

下载得到文件列表

大数据下数据挖掘算法综述.doc

文档介绍

文档介绍:大数据下数据挖掘算法综述
【摘要】在互联网发展的早期,虽然每天也会产生很多新的数据,但是数据量相对而言还可以用人力分析的方法来处理,并且对于固定的某个站点和角度去切入的话,所需要处理的数据量就更少了。随着互联网的飞速发展,每天产生的全新数据越来越多,并且呈指数态势上升,大量的数据中势必蕴含着大量有价值的信息,如果能抽取出这些信息,那么对于企业的发展和社会的发展都将大有裨益,在这个背景之下,很多数据挖掘处理方法应运而生。数据挖掘即使用计算机工具从海量的数据中挖掘出有价值的模式和规律,并用这些模式和规律去预测和指导未来的行为。在当今的互联网背景之下,最为常用的数据挖掘算法有频繁模式挖掘、聚类分析、决策树和贝叶斯网络等,本文将从若干方面入手,条理系统地介绍一下各类数据挖掘算法的原理、使用方法以及适用范围,力求为数据挖掘算法的应用提供一个良好的参考和指导。
【关键词】数据挖掘;频繁模式挖掘;聚类分析
1导论
%以上的数据都是在两年内产生的,并且每天产生的数据量仍然在以巨大的速度上升,在这样的背景之下,对于海量的数据仅仅有接收和存储的能力是不够的,还需要对这些数据进行有效的处理,进而获取能指导未来行为的规律和模式,并提高企业、社会、组织和机构的效益以及效率。计算机处理数据的速度很快,但是从海量数据中挖掘规律并不是简单的操作,因此需要有行之有效的数据挖掘算法来完成在数据中“沙里淘金”的过程,因此各种数据挖掘算法也就应运而生了。,涌现了一大批各式各样的算法,其中应用最为广泛的是频繁模式挖掘、聚类分析、决策树和随机森林、贝叶斯网络这四类,其他算法很多是基于这四大类算法的改进和扩展。其中频繁模式挖掘的作用是从大量的数据(事务集)中获取某些项之间的相关模式,它可以用于指导项之间的关联分析。聚类分析的作用是对于大量的数据进行聚类操作,通过查看哪些数据聚拢在一起来对数据进行分类和相关分析。决策树是通过以数据中各个属性为分类依据将数据不算分类,最终构成一个树的形态,用于对数据进行分类判别处理;随机森林是使用多棵决策树同时进行判别和分类,最终投票选出结果。贝叶斯网络同样是一种分类算法,在已知“执因索果”的前提条件下,通过条件概率和贝叶斯概率公式,进行“执果索因”的操作,是贝叶斯公式的成功运用。,分别对这两个算法进行介绍和分析。每一部分算法都分为三个部分,分别是算法介绍、算法过程以及算法分析。算法介绍部分主要是关于算法的主要思想,算法过程部分介绍了算法具体模型和执行过程,在算法分析部分,本文从算法的优缺点和应用场景分别给出了解释和说明。
2频繁模式挖掘
,这些模式以规则的形式出现,即X→Y的形式,其中X和Y都是项集,即若干项组成的集合,这个规则表示的含义是“若项集X出现,则项集Y也可能会出现”,那么如果要度量这个规则是否可用,需要从两个方面入手,即这个规则足够常见以及这个规则足够可信。对于“足够常见”的度量,有一个度量指标叫做支持度,对于集合S来说,它的支持度表示为sup(s)={ti|S奂ti,ti奂T}T,其中T是全体数据,以事务集的形式给