1 / 7
文档名称:

数据挖掘现阶段最常用的算法.doc

格式:doc   大小:45KB   页数:7页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘现阶段最常用的算法.doc

上传人:hnxzy51 2022/6/22 文件大小:45 KB

下载得到文件列表

数据挖掘现阶段最常用的算法.doc

文档介绍

文档介绍:-
. z.
数据挖掘最常见的十种方法
下面介绍十种数据挖掘〔Data Mining〕的分析方法,以便于大家对模型的初步了解,这些都是日常挖掘中经常遇到的算法,希望对大家有用!〔甚人而言,感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。
8、神经网络〔Neural Networks〕
神经网络是以重复学****的方法,将一串例子交与学****使其归纳出一足以区分的样式。假设面对新的例证,神经网络即可根据其过去学****的成果归纳后,推导出新的结果,乃属于机器学****的一种。数据挖掘的相关问题也可采类神经学****的方式,其学****效果十分正确并可做预测功能。
9、判别分析〔Discriminant Analysis〕
当所遭遇问题它的因变量为定性〔categorical〕,而自变量〔预测变量〕为定量〔metric〕时,判别分析为一非常适当之技术,通常应用在解决分类的问题上面。假设因变量由两个群体所构成,称之为双群体 —判别分析〔Two-Group Discriminant Analysis〕;假设由多个群体构成,则称之为多元判别分析〔Multiple Discriminant Analysis;MDA〕。〔1〕找出预测变量的线性组合,使组间变异相对于组变异的比值为最大,而每一个线性组合与先前已经获得的线性组合均不相关。〔
-
. z.
2〕检定各组的重心是否有差异。〔3〕找出哪些预测变量具有最大的区别能力。〔4〕根据新受试者的预测变量数值,将该受试者指派到*一群体。
10、罗吉斯回归分析〔Logistic Analysis〕
当判别分析中群体不符合正态分布假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件〔event〕是否发生,而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状,当自变量很小时,机率值接近为零;当自变量值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协率开场减小,故机率值介于0与1之间。
补充:
常用数据挖掘算法
频繁模式挖掘,关系挖掘,以及相互关系挖掘
所谓频繁模式挖掘,指的是比方在商品交易数据库记录中,找出一起出现的商品集合,这些商品集合出现的频率要高于一个阈值,这些经常出现的商品集合称之为频繁模式。
频繁模式的思路很简单,首先统计出每个单个商品出现的次数,这就构成了一个一维表。然后再根据一维表,商品两两组合产生一个二维表。然后再由二维表产生三维表,直至到n维表。其中可以利用apriori,进展剪枝,也就是说一维表中如果出现的频率低于阈值的商品,就可以直接去掉,应为包含该商品的高维商品集合的出现频率不可能高于该阈值,可以直接剪枝去掉。
频繁模式挖掘还有一种更加高效的方式,就是FP Growth,该方法通过扫描一遍数据库,在存中构造一颗FP tree,基于这棵树就可以产生所有的频繁模式。很显然FP Growth算法的效率要高很多,但是其缺陷也很明显,在存中维护一颗FP tree的开销也是很大的。为了解决这个问题,一个直接的思路是将数据库水平分表到各台机器上,在各台机器上执行本地的FP Growth,然后再将各台机器上的结果汇总起来,得到最终的FP Growth的结果。