文档介绍:计算机应用
Journal of Computer Applications
ISSN 1001-9081,CN 51-1307/TP
陆 宇,赵凌云,白斌雯,姜 震*
(江苏大学 计算机科学与通信工程学院,江苏 镇江 212013)
(*通信作者电子邮箱:******@ )
摘 要: 不平衡分类的相关算法作为机器学习领域的研究热点之一,其中过采样通过重复抽取或者人工合成来增加少数类
样本,以实现数据集的再平衡。但是当前的过采样大部分是基于原有的样本分布进行,难以揭示更多的数据集分布特征。为
了解决以上问题,首先,提出一种改进的半监督聚类算法来挖掘数据的分布特征;其次,基于半监督聚类的结果,在属于少
数类的簇中选择置信度高的无标签数据(伪标签样本)加入原始训练集。除了实现数据集的再平衡外,还可以利用半监督聚
类获得的分布特征来辅助分类模型的训练;最后,融合半监督聚类和分类的结果来预测最终的类别标签,进一步提高算法的
不平衡分类性能。选择 G-mean 和曲线下面积(AUC)作为评价指标,将所提算法与 TU、CDSMOTE 等 7 个基于采样的不平
衡分类算法在 10 个公开数据集进行了对比分析。实验结果表明,与 TU、CDSMOTE 等先进的不平衡分类方法相比,所提算
法在 AUC 指标上分别提高了 %和 %,在 G-mean 指标上分别提高了 %和 %,在两个评价指标上都取得了最高的平
均结果,所提算法能够有效提高学衡分类性能。
关键词: 不平衡分类;半监督聚类;伪标签样本;过采样;融合
中图分类号:TP181 文献标志码: A
Imbalanced classification algorithm based on improved
semi-supervised clustering
LU Yu, ZHAO Lingyun, BAI Binwen, JIANG Zhen*