1 / 6
文档名称:

P17_面向支持向量机的降维方法比较的分析.doc

格式:doc   页数:6页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

P17_面向支持向量机的降维方法比较的分析.doc

上传人:tswng35 2016/3/6 文件大小:0 KB

下载得到文件列表

P17_面向支持向量机的降维方法比较的分析.doc

相关文档

文档介绍

文档介绍:.页眉. .页脚. 面向支持向量机的降维方法比较分析朱慕华,朱靖波,陈文亮(东北大学信息学院自然语言处理实验室,沈阳 110004 ) 摘要: 支持向量机是文本分类领域在广泛采用的分类模型,应用于支持向量机的特征降维方法也成为了研究热点。本文考察了信息增益、文档频度、 2x 统计和潜在语义索引几种特征降维方法,同时在中英文数据集上进行了比较实验。结果表明,潜在语义索引在降维的同时使分类性能有明显的提高;而其余几种方法使性能严重下降,不适合做支持向量机的特征降维。关键词:支持向量机;文本分类;特征降维 parative Study on Dimension Reduction for SVMs Zhu Muhua, Zhu Jingbo, Chen Wenliang ( Natural Language Processing Lab of Northeastern University, Shenyang 110004 ) Abstract: Support Vector Machines (SVMs) are widely used for text categorization. In this paper, universal dimension reduction methods were studied for SVMs, including information gain, document frequency, 2x test and latent semantic indexing. Experiment results over two datasets show that latent semantic indexing improve the performance as the number of dimension is reduced, and other methods are not appropriate for SVMs. key words: Support Vector Machines; Text Categorization; Dimension Reduction 1 前言文本分类是信息处理领域中一项基础性技术,该任务定义为:给定类别集合,为不带类别标注基金资助:本文获得国家自然科学基金资助项目(微软亚洲研究院联合资助项目 60203019 )和(60473140) ,和国家教育部科学技术研究重点项目( 104065 )资助作者简介:朱慕华( 1981- ),男,浙江省,硕士生;朱靖波( 1973- ),男,浙江省,副教授,博士。.页眉. .页脚. 的文本赋予其中一个或多个类别。一个文本通常被表示成高维向量的形式。为了去除噪音和降低计算复杂度,同时为了避免过学****的问题,通常需要对特征空间进行降维。人们已经对降维方法进行了深入研究。根据降维后得到的结果特征的性质不同,降维方法分为特征选取和特征抽取两种。特征选取方法根据某种衡量准则,选择特征集合的子集作为分类的特征;特征抽取方法得到的特征类型通常与原先的特征不一致,而是原有特征的组合或转换。常用的特征选取方法包括互信息( Mutual Information, MI )、信息增益( Information Gain, IG )、文档频度( Document