1 / 11
文档名称:

基于商空间理论的非平衡数据集分类算法.doc

格式:doc   页数:11页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于商空间理论的非平衡数据集分类算法.doc

上传人:sdnmy78 2016/3/25 文件大小:0 KB

下载得到文件列表

基于商空间理论的非平衡数据集分类算法.doc

相关文档

文档介绍

文档介绍:.页眉.. .页脚. 基于商空间理论的非平衡数据集分类算法文章编号:1001-9081(2012)01-0210-03 doi:. 摘要: 在机器学****及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性, 提出了基于商空间理论的过采样分类算法,即 qmsvm 算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(svm) 学****从而获取多数类样本的支持向量和错分的样本粒; 另一方面, 获取少数类样本的支持向量和错分的样本, 进行 smote 采样, 最后把上述得到的两类样本合并进行 svm 学****这样来实现学****数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明, 和其他几种算法相比, 所提算法虽在正确分类率上有所降低, 但较大改善了 g_means 值和 acc + 值,且对非平衡率较大的数据集效果会更好。关键词: 非平衡数据集;商空间理论;支持向量机;过采样; qmsvm 算法中图分类号: 文献标志码:a abstract: the application of data classification is usually confronted with a problem named imbalanced dataset in the machine learning. to improve the performance of imbalanced dataset classification, the over-sampling classification algorithm based on quotient space theory .页眉.. .页脚. (qmsvm) was proposed. the algorithm partitioned majority data on clustering structure, bined the results and minority data for linear support vector machine (svm) learning. support vectors and sample of fault of majority data were obtained from those granules. on the other hand, support vectors and sample of fault of minority data were obtained and the synthetic minority over-sampling technique (smote) was adopted. thus, two new kinds of samples were merged for svm learning, so as to rebalance the training set and get a more reasonable classification of hyperplanes. the experimental results show that, parison with several other algorithms, the accuracy of the proposed algorithm decreases, but it significantly improves the g_means value and classification accuracy of positives and the effect is better on the imbalance rate of larger datasets. key words: imbalanced dataset; quotient space theory; support vector machine (svm); over-sampling; qmsvm algorithm 0 引言非平衡数据集的分类问题是机器学****和模式识别领域中新的研究热点, 是对传统算法的极大考验, 解决它对于完善机器学****体系、提出新的机器学****思想具有很高的理论和应用价值。.. .页脚. 是指数据集中某些类的样本比其他类多很多, 样本多的类为多数类( 即负类) ,样本少的类为少数类(即正类)[1] 。然而,现实世界中非平衡数据集分类问题随处可见, 如疾病诊断、医疗图像中肿瘤识别、信用卡欺诈检测等。这些问题中的少数类样本信息比多数类样本信息还要重要得多, 但传统分类器往往把少数样本忽略导致重要信息丢失。目