1 / 53
文档名称:

数据挖掘算法介绍.ppt

格式:ppt   大小:1,689KB   页数:53页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘算法介绍.ppt

上传人:2112770869 2022/2/22 文件大小:1.65 MB

下载得到文件列表

数据挖掘算法介绍.ppt

相关文档

文档介绍

文档介绍:数据挖掘算法介绍
数据挖掘十大经典算法
K-MEANS
SVM
EM
Knn
贝叶斯
CART
Adaboost
Pagerank
Apriori
聚类算法
层次聚类
K-means聚类
基于密度的聚类估计值J的修正
2,3,4,…,J中选择。仅根据类间对数似然间隔 ,不考虑模型复杂度
J类时的最小
对数似然间隔
d(4)
d(3)
d(2)
d(5)
计算R2(J-1)、R2(J-2)到R2(2),反映J-1类的类内差是J类的倍数。
Modeler找到最大值,假设最大值是次大值的倍以上,那么最大值对应的J为最终聚类数
R2(J)是聚类合并过程中类间差异最小值变化的相对指标
模糊聚类——FCM
FCM与HCM的主要区别在于FCM用模糊划分,使得每个给定数据点用值在0,1间的隶属度来确定其属于各个组的程度。
与引入模糊划分相适应,隶属矩阵U允许有取值在(0,1)间的元素,满足
目的函数:SSE=
(2)
拉格朗日乘数法
这里λj,j=1到n,是(1)式的n个约束式的拉格朗日乘子。
其中,mÎ[1,+ )是一个加权指数, 为第I个聚类中心与第j个数据间的欧几里德间隔 。
对所有输入参量求导,使式(2)到达最小。
得到解为:
〔4〕
〔5〕
其中,mÎ[1,+ )是一个加权指数, 为第I个聚类中心与第j个数据间的欧几里德间隔 。
模糊质心的定义类似于传统的质心定义,不同之处在于所有点都考虑,并且每个点对质心的奉献要根据它的隶属度加权。
FCM算法实现
step1:初始化聚类中心,用值在0,1间的随机数初始化
隶属矩阵U,使其满足式(1)中的约束条件。
step2:用式(4)计算k个聚类中心 ki,i=1,…,k。
step3:根据式(2)计算目的函数。假如它小于某个确定
的阈值,或它相对上次目的函数值的改变量小于某个阈
值,那么算法停顿。
step4:用〔5〕计算新的U矩阵。返回步骤2。
FCM算法需要设置两个参数:一个是聚类数目k,一个是参数m。
Kohonen网络聚类——概述
聚类中的主要问题:
如何测度数据点之间的“亲疏程度〞
怎样的方式施行聚类
Kohonen网络的根本策略是:
第一:采用欧氏间隔 作为数据“亲疏程度〞的测度
第二:
模拟人脑神经细胞的机理
通过竞争“获胜〞实现聚类过程
Kohonen网络聚类——拓扑构造
Kohonen网络两层、前馈式、全连接的拓扑构造
输入节点的个数取决于聚类变量的个数
输出节点的个数即为聚类数目
Kohonen网络聚类——聚类过程(鸢尾花为例)
输入层
输出层
欧式间隔
需提早确定聚类数目
输入变量个数
Kohonen网络聚类——聚类过程
输入层
输出层
Kohonen网络聚类——聚类过程
输入层
输出层
拉动多少?
Kohonen网络聚类——聚类过程
输入层
输出层
将谁推向远方?
Kohonen网络聚类——聚类过程
拉动多少?
对获胜节点 的权值调整为:
式中, 为t时刻的学****率。
将谁推向远方?——将获胜节点的邻接点推向远方
邻接点:与 的间隔 在指定范围内的输出节点都视为邻接点。
对邻接点 的权值调整的计算方法是:
式中 为核函数,反映的是t时刻邻接节点 与 之间间隔 的侧度。
clementine中采用的是切比雪夫间隔 ,即:
即以单个维的间隔 最大值作为间隔 的测度。
平衡数据——基于SMOTE算法
欠抽样:通过去除训练数据多数分类中的样本数从而到达平
衡数据的目的。
过抽样:形成新的少量分类样本从而到达平衡数据的目的。
SMOTE算法主要思想是:通过在一些位置相近的少数类样本中插入新样本以期到达平衡样本的目的。SMOTE算法的特点是不按照随机过抽样方法简单的复制样本,而是增加新的并不存在的样本,因此在一定程度上可以防止过度拟合。
假设有少数类样本,每一个样本x,搜索其K个少数类最近邻样本,
在k个最近邻样本中随机选择N个样本,记为y1,y2,y3,...yn。在少数类
样本x与yj之间进展随机线性插值,构造新的少数类样本pj。
其中,rand(0,1)表示区间〔0,1〕内的一个随机数。
KNN算法
根本原理:对一个待分类的数据对象x,从训练数据集中找出与之空间间隔 〔欧式间隔 〕最近的k个点,取这k个点的众数类作