文档介绍:第 29卷第 9期计算机应用与软件 Vol
2012年 puterApplicationsandSoftware
基于特征权重与词间相关性的文本特征选择算法
任永功杨荣杰尹明飞
(辽宁师范大学计算机与信息技术学院辽宁大连 116029)
摘要传统的 ReliefF算法使用二值法不能体现离散特征差异大小,且不能去除冗余特征。针对这种情况提出了 mRMRReliefF
特征选择算法。该算法利用概率弥补特征差异度量上的不足,提出新的差异函数。此函数使提取出的特征更能体现文本的类内相
关性和类间差异性。该算法还结合了词间相关性。词间相关性在考虑选择和类别相关性大的特征词的同时还考虑了特征冗余的消
除。通过三种算法的对比实验,表明该算法为文本分类提供了更有效的特征子集。
关键词 ReliefF算法 mRMRReliefF算法特征选择差异函数词间相关性文本分类
中图分类号 文献标识码 A
DOI:.1000
TEXTFEATURESELECTIONALGORITHM BASEDONCORRELATIONOF
FEATURESWEIGHTANDWORDS
RenYonggong YangRongjie YinMingfei
(puterandInformationTechnology,LiaoningNormalUniversity,Dalian116029,Liaoning,China)
Abstract TraditionalReliefFalgorithm,byusingthebinarymethod,canneitherreflectthedifferencesofdiscretecharacteristicsnor
,mRMR
thedeficiencyoffeaturedifferencemeasurementbyutilisingtheprobability,
thewordsrelevancy,whichnotonlyconsiderstheselectionofcharacteristicwordsthathasmuchtodowiththeclassbutalsoconsiders
,itshowsthatthealgorithmourpaperproposingcanprovideamore
effectivefeaturesubsetforth