文档介绍:HEBEI UNIVERSITY
密 级:
分 类 号:
学校代码:10075
学 号:20080893
硕士学位论文
基于无监督决策树聚类方法的研究
学 位 申 请 人 :张婵婵
指 导 教 师 :鲁淑霞 教授、王熙照 教授
学 位 类 别 :工学硕士
学 科 专 业 :计算机应用技术
授 予 单 位 :河北大学
答 辩 日 期 :二○一○年五月
Classified Index: CODE: 10075
: NO: 20080893
A Dissertation for the Degree of M. Engineering
The Study of Clustering Based on
Unsupervised Decision Tree
Candidate: Zhang Chanchan
Supervisor: Prof. Lu Shuxia, Prof. Wang Xizhao
Academic Degree Applied for: Master of Engineering
Specialty: Computer Applied Technology
University: Hebei University
Date of Oral Examination: May, 2010
摘 要
摘 要
决策树是一种有监督的归纳学****算法,它用于对有类标的数据集进行分类,而聚类
是一种无监督的学****算法,它可以对无类标的数据集进行分组,使组内的数据相似性最
大,组间相似度最小。21 世纪以来,越来越多的学者开始关注两种方法的融合。
本文提出了一种新型的基于无监督决策树的聚类算法,可以对没有类标的数据进行
学****从而对数据集进行划分。新型的基于无监督决策树的聚类过程实际上是构建一棵
无监督决策树的过程,测试属性的选择采用离散度和不一致性评估的方法;结点的分裂
采用改进的山峰山谷分裂法;算法最后一步规定了树生长延伸的停止标准用以限制树的
生长。最终建成树的叶子结点代表聚类结果的簇。
实验验证了这种算法划分数据集的有效性,结果表明该学****算法无论是与有监督的
学****算法 相比还是与无监督学****算法 k 均值相比,其划分数据的正确率在一定程
度上都有所提高。同时,从生成树的规模角度与 算法作比较,结果表明该算法在
一定程度上优于 算法。此外,分析了这种算法的时间复杂度,与其它算法比较说
明了此算法有较高的效率。
关键词 分类方法 决策树 聚类 无监督学****br/>