1 / 43
文档名称:

基于最小类间距的半监督聚类算法研究.pdf

格式:pdf   大小:1,486KB   页数:43页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于最小类间距的半监督聚类算法研究.pdf

上传人:陈潇睡不醒 2021/9/10 文件大小:1.45 MB

下载得到文件列表

基于最小类间距的半监督聚类算法研究.pdf

文档介绍

文档介绍:分类号:O213 密级:公开
专 业 学 位 研 究 生 学 位 论 文
论 文 题 目(中 文) 基于最小类间距的半监督聚类算法研究
论 文 题 目(外 文) Semi-supervised clustering algorithm based on
Single linkage clustering
研 究 生 姓 名 丁志婕
学 位 类 别 应用统计
专 业 学 位 领 域
学 位 级 别 硕 士
校内导师姓名、职称 赵学靖 副教授
校外导师单位、姓名
论 文 工 作
起 止 年 月 2016 年 3 月 至 2017 年 3 月
论 文 提 交 日 期 2017 年 3 月
论 文 答 辩 日 期 2017 年 5 月
学 位 授 予 日 期
校 址: 甘 肃 省 兰 州 市
原 创 性 声 明
本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研究所取
得的成果。学位论文中凡引用他人已经发表或未发表的成果、数据、观点等,均已
明确注明出处。除文中已经注明引用的内容外,不包含任何其他个人或集体已经发
表或撰写过的科研成果。对本文的研究成果做出重要贡 献的个人和集体,均已在文
中以明确方式标明。
本声明的法律责任由本人承担。
论文作者签名: 日期:
基于最小类间距的半监督聚类算法研究
摘 要
半监督学****方法在数据挖掘研究领域内具有举足轻重的地位,这类方法能够在
仅获取少量有效的有监督数据信息或观测数据类标签信息的基础上,更有效且具有
目的性的对数据进行分析和挖掘。但目前对于半监督学****方法中研究比较成熟、应
用较为广泛的多以半监督回归方法和半监督分类方法为主,半监督聚类方法相较而
言研究的深度和广度都不够成熟。
K-meansGuider方法是2010年李杉提出的一种结合了分类方法和K-means算法
思想的基于分类的半监督聚类算法,其主要思想是在基于K-means方法聚类中心的
搜索思想,利用半监督学****方法改进了聚类过程中有关类中心选取的过程,该方
法将数据集中少部分含有类标签的数据作为有监督数据信息,并根据这些数据构
造一个初始的粗分类器,将原始数据粗略分类,之后 利用K-means聚类方法的思想
进一步对初始粗分类结果进行分析、集成,相较于K-means的聚类结果的精确程度
有了很大的改善,但其结果高度依赖算法初始设定的粗分类器,且算法时间效率
不高。本文在K-meansGuider方法的基础上进行改进,结合层 次聚类方法中最小类
间距(Single Linkage)的思想及2014年Rodriguez和Laio提出的快速搜索聚类方法
(FSC)中类簇合并的思想,提出了一种基于最小类间距(Single Linkage)的半监督
聚类算法,该算法利用数据集中少量的有监督数据信息,将该部分数据划分为带有
类标签的初始类,再根据最小类间距(Single Linkage)的思想将其余无监督的数据
点聚入各个初始类中,其中设立阈值以避免初始类中的有监督数据信息不完整从而
影响聚类效果的问题。本文以UCI数据库中的5组真实数据对提出的方法加以实现,
并与传统K-means及K-meansGuider方法做对比,实验结果表明,本文改进的方法
对于提高聚类效果有较为明显的效果。
关键词:半监督学****聚类;Single Linkage;K-均值聚类.