1 / 27
文档名称:

数据挖掘关于Kmeans算法的研究.doc

格式:doc   大小:177KB   页数:27页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘关于Kmeans算法的研究.doc

上传人:龙的传人 2022/2/26 文件大小:177 KB

下载得到文件列表

数据挖掘关于Kmeans算法的研究.doc

相关文档

文档介绍

文档介绍:数据挖掘关于Kmeans算法的研究(含数据集)
数据挖掘关于Kmeans算法的研究(含数据集)
1 / 27
数据挖掘关于Kmeans算法的研究(含数据集)
浙江大学算法研究实验报告
数据挖掘
题目试,无问题,测试通过.
数据挖掘关于Kmeans算法的研究(含数据集)
数据挖掘关于Kmeans算法的研究(含数据集)
5 / 27
数据挖掘关于Kmeans算法的研究(含数据集)

算法描述
KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,,直到簇心的移动距离小于某个给定的值。
K—Means聚类算法主要分为三个步骤:
(1)第一步是为待聚类的点寻找聚类中心
(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中去
(3)第三步是计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
反复执行(2)、(3),直到聚类中心不再进行大范围移动或者聚类次数达到要求为止

下图展示了对n个样本点进行K-means聚类的效果,这里k取2:
(a)未聚类的初始点集
(b)随机选取两个点作为聚类中心
(c)计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去
(d)计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
(e)重复(c),计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去
(f)重复(d),计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心
数据挖掘关于Kmeans算法的研究(含数据集)
数据挖掘关于Kmeans算法的研究(含数据集)
6 / 27
数据挖掘关于Kmeans算法的研究(含数据集)
图4-1
数据挖掘关于Kmeans算法的研究(含数据集)
数据挖掘关于Kmeans算法的研究(含数据集)
7 / 27
数据挖掘关于Kmeans算法的研究(含数据集)
算法实现
5.1主要数据结构描述
这里我建造了一个data的结构体,如下:
typedef vector<double〉 Tuple;//存储每条数据记录
struct data

ﻩstring s;// 存储关键词
ﻩTuple tup;// 存储属性信息
};
关键词
属性1
属性2
属性3
...
属性n
ﻩ ﻩﻩ ﻩﻩ图5—1
5.2核心代码与关键技术说明
5.
此函数用于计算两个元祖之间的距离,对于每个元祖的属性值,对于数值型的属性值(X1,X2,X3,Xi,Xn),我们用Yi代替Xi来进行归一化处理,其中Yi计算公式如下:
数据挖掘关于Kmeans算法的研究(含数据集)
数据挖掘关于Kmeans算法的研究(含数据集)
8 / 27
数据挖掘关于Kmeans算法的研究(含数据集)
Yi=(Xi- Xmin)/(Xmax—Xmin)
对于序数型属性值(M1,M2,M3,Mi,Mn), 我们用Qi代替Mi进行归一化处理,其中Qi计算公式如下:
Qi=(Z(Qi)-1)/(Z(Total)-1)
其中Z(Qi)表示Qi属于的组数,Z(Total)表示总共的组数,他们的计算规则如下:
Z(Total)= k
Z(Qi)= Qi/(dataNum/k)+1
(其中dataNum为总数据量,K为总分组数。)
归一化处理之后,在计算两个元祖之间的欧式几何距离,具体实现代码如下:
double getDistXY(const data &t1, const data &t2)

ﻩdouble sum = 0,temp1=0,temp2=0,temp3=0,temp4=0;
int zuBase,zu1,zu2;         //确定分组依据
ﻩzuBase=dataNum/k;
ﻩzu1=t1。tup[4]/zuBase+1;ﻩﻩﻩﻩ //确定分组
ﻩzu2=t2。tup[4]/zuBase+1;
ﻩtemp3=(zu1—1)/6;
if(temp3>1)
ﻩtemp3=1;
ﻩtemp4=(zu2-1)/6;
ﻩif(temp4>1)
temp4=1;//修正序数度量
数据挖掘关于Kmeans算法的研究(含数据集)
数据挖掘关于Kmeans算法的研究(含数据集)
9 / 27
数据挖掘关于Kmeans算法的研究(含数据集)

最近更新

2025年六年级阅读写景状物类阅读专题 13页

文科群落的结构与演替 30页

2025年做账凭证是非多-老会计在这儿梳理清楚了.. 3页

2025年会计人要记住十大现金流法则 2页

2025年人教版新目标八年级英语下册Unit2导学案.. 4页

2025年七年级线段和角综合练习 9页

2025年BIM在公路桥梁方面的运用 5页

2025年3月4日学雷锋国旗下的讲话参考发言稿 2页

2025年高考英语复习范文 4页

野生植物生态适应性研究-深度研究 35页

2025年防震教育国旗下参考发言稿 2页

2025年乙丙橡胶合作协议书 42页

2025年脱灰剂项目建议书 64页

住宅小区改造水电包工合同3篇 54页

住宅区开发泥土清理合同3篇 50页

2025年部编版二年级语文下册第一次月考试卷 5页

会议室吊顶改造协议2篇 33页

2025年部编版三年级语文下册期中测试卷 7页

无人驾驶车辆控制算法-深度研究 36页

2025年部编版一年级数学下册期末考试卷及完整.. 6页

2025年部编人教版三年级语文上册大青树下的小.. 8页

2025年通用版初中化学九年级化学上册第三单元.. 19页

2025项目经理个人工作计划范本 6页

幼儿园生活活动中的师幼互动研究 5页

小学:英语自然拼读法教学 11页

物理八年级上应用题20道 3页

打桩工程分包合同范本(桩基础) 6页

我们赖以生存的隐喻 3页

6ra8025模块调试样稿 13页

仙传玄机口诀(不知道能不能成仙)+-+道.. 10页