1 / 42
文档名称:

数据挖掘的10大算法.ppt

格式:ppt   大小:2,607KB   页数:42页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘的10大算法.ppt

上传人:中华文库小当家 2020/12/27 文件大小:2.55 MB

下载得到文件列表

数据挖掘的10大算法.ppt

相关文档

文档介绍

文档介绍:数据挖掘的10大经典算法
1, Apriori算法
Apriori算法使用的是一种逐层搜索的迭代是
方法
·首先,通过扫描数据库,累计每个项的个
数,并搜集满足最小支持度的项,形成频
繁1项集L1。通过L1,在数据库中寻找频繁
2项集L2,直至不能找到更多项的平凡项集。
I List of item ID's
IL2IS
T200|I2I4
T300I2,I3
T400|
T50011,I3
T600I2I3
T700I1I3
T800I1,I2,I3,I5
T900I1,I2I3
最小支持度为22%
数据库中有9条数据,最小支持度就是
9*22%=2
L
C
项集支持度计数
集支持度计数
I113
2
67622
124}
442422
1215
项集支持度计数
I112
I1,I3
扫描数据库根究最小支持度,得
I1,4}
I1,15}
出频繁1项集C1
I2,13
根据C1扫描数据库得到2项集C2,
I24
4412422
比较最小支持度,删除不频繁项,
I2,15}
I3,14}
得到频繁2项集L2.
I415
项集
1,|2,|3
项集。项集艾持度计数
1,|2,5
41,|2,|4
{1,|2,|3}
11, I2, 13]
2
{I1I2,I5
2
1,|3,15
{1,|2,5}
2,|3,4
1141
2,|3,5
12,|415
根据排列组合,3项集应该如第一个集合显示的。如果基数
很大的话,组合的数目应该很大。 Apriori算法有个规则,
如果一ˆk项集不是频繁项集,那么k+1项集也就不是频繁
项集。根据频繁2项集排列组合得岀中间的集合,然后扫描
数据库,得出频繁3项集。
每找一次频繁k项集就要扫描一次数据库,每
次都会生成大量的候选项集。
2, k-means
·选取k个中心点
计算所有数据到中心点的距离(欧几里得
距离),并把距某个中心点最近的点归到

计算一个聚类里面的点的平均值,然后把
平均值作为新的中心点
重复上面两步,直至收敛。
.. & P-Image0157
(a)
在样本集中随机的选择两个中心点
计算到中心点的欧几里得距离,把离同一个
中心点最近的点归到一类中,计算聚类中点
的平均值,作为新的中心点