1 / 11
文档名称:

基于 Tri-Training 和数据剪辑的半监督聚类算法.pdf

格式:pdf   大小:385KB   页数:11页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于 Tri-Training 和数据剪辑的半监督聚类算法.pdf

上传人:q1188830 2022/2/21 文件大小:385 KB

下载得到文件列表

基于 Tri-Training 和数据剪辑的半监督聚类算法.pdf

相关文档

文档介绍

文档介绍:: .
ISSN 1000-9825, CODEN RUication; K-means; seeds set; Tri-training;
depuration data editing
摘 要: 提出一种半监督聚类算法,该算法在用 seeds 集初始化聚类中心前,利用半监督分类方法 Tri-training 的迭
代训练过程对无标记数据进行标记,并加入 seeds 集以扩大规模;同时,在 Tri-training 训练过程中结合基于最近邻规
则的 Depuration 数据剪辑技术对 seeds 集扩大过程中产生的误标记噪声数据进行修正、净化,以提高 seeds 集质量.
实验结果表明,所提出的基于 Tri-training 和数据剪辑的 DE-Tri-training 半监督聚类新算法能够有效改善 seeds 集对
聚类中心的初始化效果,提高聚类性能.
关键词: 半监督聚类;半监督分类;K-均值;seeds 集;Tri-Training;Depuration 数据剪辑
中图法分类号: TP18 文献标识码: A

∗ Supported by the National Natural Science Foundation of China under Grant , 60772076 (国家自然科学基金); the
National High-Tech Research and Development Plan of China under Grant (国家高技术研究发展计划(863)); the
Science Fund for Distinguished Young Scholars of Heilongjiang Province of China under Grant (黑龙江省杰出青年科学基
金); the Natural Science Foundation of Heilongjiang Province of China under Grant (黑龙江省自然科学重点基金); the
Foundation of Harbin Institute of Technology of China under Grant (哈尔滨工业大学校基金)
Received 2006-06-21; Accepted 2007-03-07664 Journal of Software 软件学报 , , March 2008

、生物信息学和网页分类等实际应
用中,对数据进行人工标记的代价很高,
学****虽然不需要带标记数据,,将少量带标记数据和大量无标记数据结合的半监
,半监督学****分为半监督聚类和半监督分类[1].
半监督聚类算法研究无监督学****中如何利用少量的监督信息来提高聚类性能[2].少量的监督信息可以是
,分为基于距离
(distance-based)的方法和基于约束条件(constraint-based)的方法[3].基于约束条件的方法目前研究应用较多[2−4],
它用监督信息约束最优聚类的搜索过程,典型算法包括将约束条件加入聚类目标函数的算法[5]、强制满足连接
约束条件的 COP-K-均值算法[6]、基于隐马尔可夫随机域模型的