文档介绍:内容摘要随着通信技术和计算机技术的飞速发展,信息处理已经成为人们获取信息和知识不可或缺的工具。文本分类是信息处理的重要研究方向,它是指在既定的分类体系下,根据文本的内容自动判别文本类别的过程。粗糙集理论是一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法。它在不影响分类精度的前提下通过信息约简,去掉冗余信息,得到显式的文本分类规则,简化信息的表达空间维度。支持向量机是一种基于统计学习理论的方法,它遵照结构最小化原则,在统计样本较少的情况下获得良好的统计规律和泛化能力,为解决小样本学习问题提供一个框架,但是由于庞大的文本特征维数,支持向量机的性能也经常会受到限制。因此本文采用了一种粗糙集和支持向量机相结合的文本分类方法,即利用粗糙集属性约简减少属性数,然后用支持向量机进行训练,再利用训练得出的分类知识对新文本进行分类,通过两者有机的融合增强了它们在文本分类中的实用性。本文沿着“文本分类理论÷粗糙集理论÷支持向量机理论专基于分类方法的提出专将分类方法应用到文本分类中”的思路对文本分类研究内容进行了介绍。在仿真过程中,提出了改进的袄匪惴ǎü槿屎筒樽悸实谋冉希砻鞲慕具有较好的分类精度。针对语料库的不同类别样本集的数量差异问题,本文对语料库进行了再分类,使得分类结果更加准确有效。结果表明,基于。的方法在中文文本分类上具有一定的优越性。关键词:文本分类粗糙集支持向量机属性约简
琯,瑃聇—琒,.专甌,,,.,琣甋琾琤.,.‘‘’’甀瑃甌瑃.,—.篢,Ⅱ
学位论文作者签名:腑答字日期:瓿щ纅日学位论文作者虢月循签字目其:少年厂月歹签字魄产邢/日独创性声明学位论文版权使用授权书本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得天津财经大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本学位论文作者完全了解天津财经大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权天津财经大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文,C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ学位论文作者毕业后去向:工作单位:通讯地址:导师签名:电话:邮编:
绪论第研究背景及意义信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临文本分类主要是用获取的规则来对文本进行标引和分类,它作为知识的组织工具,最初被应用到文献分类、图书馆分类、公文和专利的分类等领域。自动分类技术的出现为模域,使得文本分类得到了越来越广泛的应用,如大型网络检索系统、文档管理、数字图书们提供了便捷的知识组织和获取途径。因此,对文本分类的研究具有重要的实用价值。文本自动分类技术的研究目标就是实现文本分类的自动化,现已广泛应用于信息检索成熟,出现了很多文本分类的软件,而国内关于中文文本分类的研究由于起步较晚,相关上技术上也还不成熟,但是中文是世界上使用人数最多的语言,而且随着信息时代的到来和知识经济的全球化,中文信息急剧增加,中文信息的利用率越来越大,其作用已经变得举足轻重。因此,对简单高效实用的中文文本分类进行分类和研究,提高中文文本自动分本章的主要内容包括:指出了本文的研究背景;介绍了本课题国内外的研究状况;简要介绍了本文所用文本分类的算法,即粗糙集和支持向量机相结合的文本分类方法;阐述了本文所做的主要工作。文本分类畛跏怯π畔⒓焖虺傧低车囊G蟪鱿值摹C娑耘哟蠖壹本缗蛘偷男畔⒑Q螅绾斡行У刈橹凸芾碚庑的一大挑战。因此,对文本信息进行组织分类,从而简化用户检索时对文本的存取和操作已经成为适应当代信息迅猛发展的迫切要求,所以,对文本分类的研究和应用开始逐渐兴起。式识别和机器学习②峁┝搜芯坑胗τ玫男铝馆中的文本归类系统、信息过滤系统等,这些系统已广泛应用到了生活的方方面面,为人信息过滤文本数据库数字化图书馆等领域,国外关于英文的文本分类技术己经研究的比较技术有待进一步提高,随着中文环境下的用户数目的爆炸式增长,中文信息越来越丰富,使中文信息处理愈加成为需要迫切解决的问题。中文在构词成句上比英文复杂的多,理论①甅②瓵瓵甌:,:,:
国内外研究状况分类是数据挖掘中一项非常重要的任务,应用广泛。分类是一个从现有的带有类别标签的数据集中寻找同一类别数据的共同特性,并以此将它们进行区分的过程。分类的目的是学会一个分类函数或分类器,该函数能把数据源中的数据项映射到给定类别中的某一个。分类可用于预测,其目的是从历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数