1 / 4
文档名称:

基于TF-CA-CI 算法的互信息特征选择改进研究.pdf

格式:pdf   页数:4页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于TF-CA-CI 算法的互信息特征选择改进研究.pdf

上传人:799474576 2013/8/9 文件大小:0 KB

下载得到文件列表

基于TF-CA-CI 算法的互信息特征选择改进研究.pdf

文档介绍

文档介绍:第 30卷第 3期计算机应用与软件 Vol
2013年 puterApplicationsandSoftware
基于 TFCACI算法的互信息特征选择改进研究
柴加加张德贤耿瑞焕
(河南工业大学信息科学与工程学院河南郑州 450001)
摘要文本特征选择的互信息算法通常倾向于选择稀有的特征词。针对这一局限性,将词频度、类间耦合度、类内内聚度应用
到互信息方法上,提出基于 TFCACI算法的互信息改进研究。实验结果表明,改进的方法可以有效地控制互信息在低维数特征选
择过程中出现的随机性,能够取得较好的分类效果,从而实现了改进方法的有效性和可行性。
关键词特征选择文本分类互信息词频度
中图分类号 TP391 文献标识码 A DOI:.1000
IMPROVEMENTOFTFCACIALGORITHMBASEDMUTUAL
INFORMATIONSELECTION
ChaiJiajia ZhangDexian GengRuihuan
(CollegeofInformationScienceandEngineering,HenanUniversityofTechnology,Zhengzhou450001,Henan,China)
Abstract Mutualinformation(MI)
thislimitation,inthispaperwemakeuseofthetermfrequency,thecouplingfactoramongclassesandthecohesiondegreeinsidetheclassto
MIalgorithm,andproposeanimprovedMIapproachwhichisbasedonTFCA
methodcaneffectivelycontroltherandomnessoftheMImethodhappenedintheprocessoffeatureselectionwithlowdimension,andachieve
.
Keywords Featureselection Textclassification Mutualinformation Termfrequency
值的设定是根据训练集的情况和实际的需要事先设定的,方法
0 引言对参数值的设定非常敏感,使其适应性大受影响;文献[6]提出
基于二次 TF×IDF的互信息文本特征选择算法研究,但其主要
文本自动分类就是在给定的分类体系下,由计算机自动判是针对仅在一个类别中出现的特征词的重要程度给予再次的衡
别文本类别的过程。目前文本分类中主要使用向量空间模型量,解决了互信息值相等而无法进行有效特征