1 / 3
文档名称:

基于粗糙集的中文文本特征选择方法研究.pdf

格式:pdf   页数:3
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于粗糙集的中文文本特征选择方法研究.pdf

上传人:799474576 2013/8/12 文件大小:0 KB

下载得到文件列表

基于粗糙集的中文文本特征选择方法研究.pdf

文档介绍

文档介绍:第 27卷第 3期计算机应用与软件 Vol
2010年 puterApplicationsandSoftware
基于粗糙集的中文文本特征选择方法研究
张翔1,2 周明全1,3 耿国华1
1(西北大学可视化技术研究所陕西西安 710127)
2(西安建筑科技大学信息与控制工程学院陕西西安 710055)
3(北京师范大学信息科学与技术学院北京 100875)
摘要针对传统的特征选择使用阈值过滤导致有效信息丢失的问题,提出一种粗糙集的文本特征选择方法。该方法以核为起
点利用特征属性的重要性和依赖性作为启发式信息进行特征选择,使文本的特征维数得到一定程度的降低。实验表明,此算法不仅
易于实现而且能够有效降低特征数目,提高分类效率。
关键词粗糙集特征选择属性重要性属性依赖性
STUDYONFEATURESELECTIONOFCHINESETEXTBASEDONROUGHSET
ZhangXiang1,2 ZhouMingquan1,3 GengGuohua1
1(VisualizationTechnologyInstitute,NorthwestUniversity,Xian710127,Shaanxi,China)
2(CollegeofInformationandControlEngineering,XianUniversityofArchitectureandTechnology,Xian710055,Shaanxi,China)
3(CollegeofInformationScienceandTechnology,BeijingNormalUniversity,Beijing100875,China)
Abstract Aimingattheproblemthatintraditionalfeatureselectiontheuseofthresholdfilteringoftenleadstothelossofeffectiveinfor
mation,,usesattributessig
nificanceanddependencyastheheuristicinformationtodofeatureselection,whichgreatlyreducesthedimensionofdocumentseigenvector.
Experimentalresultsshowthatthealgorithmiseasytoimplementandcaneffectivelyreducethefeaturesnumber,u
racyofclassification.
Keywords Roughset Featureselection Attributesignificance Attributedependency
万维,即得到的是一个十分庞大的决策表,在如此庞大的决策表
0 引言上进行离散化和基于粗糙集的属性约简,工作量是十分巨大的,