文档介绍：中国科学技术大学
硕士学位论文
基于核主成分分析和径向基神经网络的文本分类研究
姓名:杨俊
申请学位级别:硕士
专业:电路与系统
指导教师:陈贤富
20090501
摘要文本分类技术是文本挖掘和信息检索的重要基础,其所完成的主要任务是在预先给定的类别集合下,根据文本内容判定其所属类别。到目前为止,大部分文本分类工作还是由人工来完成的,这显然会耗费大量的人力物力。当今社会是一个信息爆炸的社会,互联网上各种电子文本信息增长异常迅速,传统的人工文本分类已渐渐不能满足需要,而基于人工智能的自动文本分类韵录虺莆N谋痉类撼晌W匀挥镅源砹煊蛞桓鲋匾5难芯糠较颉文中首先对文本分类系统的系统结构和核心技术进行了探讨,深入的分析和研究了一个典型的文本分类系统各子模块所采用的算法。通过横向比较,分析了各种算法尤其是文本表示方法、特征降维算法以及文本分类算法的优缺点。神经网络有很强的学习、联想和容错能力,能进行大规模的分布和并行信息处理。而窬绯哂猩鲜錾窬绲墓残酝猓咕哂惺樟菜俣瓤臁⑷局最优、网络设计简单等特性。因此,文中尝试将窬缬τ糜谖谋痉类,并对基于传统特征选择算法和窬绲奈谋痉掷嗨惴ń辛耸笛椤文中还对特征选择和特征抽取两种文本特征降维方法进行了深入研究,从理论角度分析指出了传统特征选择算法的局限和不足——其或者为求解最优特征项子集或次优特征项子集而导致计算不可行;或者为降低计算复杂度,通过构造评估函数来挑选满足一定最优化准则的特征项以构成特征项子集,付出的代价是不能保证找到最优特征项子集,甚至不能保证找到一个次优特征项子集。针对上述问题,并考虑到文本数据存在的维数较高、非线性以及特征项之间复杂相关的特性,文中引入了基于核主成分分析的特征抽取算法,对其进行了深入的理论分析和可行性分析并将其应用于文本特征降维。神经网络在文本分类领域较少采用,主要原因是文本输入空间维数过高,导致神经网络性能受限制,而引入基于核主成分分析的特征抽取算法正好可以弥补这个缺陷。因此,文中提出了一种基于核主成分分析和窬绲姆掷嗨法。算法首先将文本输入空间映射至高维特征空间以消除文本特征项之间的非线性;然后在特征空间中实施主成分分析以获取各“主成分”,藉此消除各特征项之间的复杂相关性,并通过将文本输入空间中的输入向量投影到各“主成份量上实现文本特征的降维;最后利用降维得到的语义特征训练径向基神经网络分类器。实验显示,文中提出的算法能有效地对输入空间进行特征降维,并能改善窬绲姆掷嘈阅埽视诖蠊婺N谋臼凳狈掷嗳挝瘛
关键词:文本分类特征选择特征抽取主成分分析核主成分分析径向基神经网络摘要
甌,猳猯,瓼,印,..瑃,..琩.,,,,琑琯.,;.,Ⅱ
:瓸,,,.瑃瑃瑃—.,,,..猯.”猻.
导师签名:继之签字吼丛牡中国科学技术大学学位论文原创性声明中国科学技术大学学位论文授权使用声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。口保密!D的说明。作者签名:签字日期:
第绪论研究背景和动态拥有数亿用户、上千万站点、数百亿页面的巨大分布式信息存储空间,而且其信息容量仍在以指数级别飞速增长。目前万维网是一个巨大的、分布广泛的全球化信息服务中心,其涉及的信息服务包括了科学、文化、教育、经济、管理、政府、商业、消费等等众多社会生活领域。万维网是以超文本的形式提供给用户使用的,其提供给用户的是一个极具价值的信息来源。然而,万维网上的信息只有很小的一部分是用户所需要的。调查显示,%的万维网信息对于%的网络用户来说都是无用的,可见网络信息的利用率之低下。因此,如何能快速、准确、全面地查找到自身感兴趣的信息成为人们关注的热点问题。现有的许多著名的搜索引擎如,琘等在对信息进行检索查询中承担了重要的作用。在网页中包含有大量以文本内容形式存在的信息,而对文本的检索,分类,聚类,过滤等工作往往是基于文本分类的技术来施行的,这使得文本分类技术成了组织和处理文本数国外对于文本分类技术的研究和探索工作开展的较早,最早可以追溯到薄4撕螅诙晕谋拘畔⒅悄芑淼木薮笮枨蟮闹敢拢谛畔⒓焖骷术和人工智能技术的联合推动下,文本分类技术的研究和开发得到了相关研究人员越来越多的重视