1 / 77
文档名称:

文本分类方案选择方法及原型系统开发(可复制论文).pdf

格式:pdf   页数:77
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

文本分类方案选择方法及原型系统开发(可复制论文).pdf

上传人:mkt365 2013/11/13 文件大小:0 KB

下载得到文件列表

文本分类方案选择方法及原型系统开发(可复制论文).pdf

文档介绍

文档介绍:摘要本文研究内容基于国家自然科学基金项目“项目管理中项目关联分析与立项决策支持系统研究”,项目的相关性分析依据项目建议书的研究内容,这里涉及的~个基本问文本分类问题涉及到文本模型表示、特征选择、分类算法以及权重设置等多种方法题就是文本分类问题。的综合应用,需要针对不同的文本集合特点选择合适的分类方案。本文目的是针对不同类型的文本集合,提出一种判断类型的方法,结合文本集合类型与分类相关方法特点,分析可行分类方案,通过实验验证可行方案分析的正确性并找出最佳分类方案,最后通过实例验证可行方案与最佳方案的正确性。并根据应用要求开发一种集成多种文本相关分类方法的原型系统。首先是文本分类相关方法的特点分析。针对文本分类方法包括文本表示模型、文本分类算法、特征选择方法以及权重设置方法等,根据定义并参考一些文献分析并总结了各种方法的优势与不足。其次是文本集合的特点分析及文本分类方案的构造与选择。重点分析了不同类别结构的文本集合的特点,并提出在类别结构上不同类型的文本集合的类型判断方法与判断标准。针对不同类型特点,结合分类方法的特点分析可行分类方案并给出最佳分类方案的评价标准和选择方法,通过实验得出最佳分类方案同时验证了可行方案的正确性。第三是分类原型系统分析与设计。本文对集成多种分类方法的文本分类原型系统进行设计与实现。根据对文本自动分类流程的分析并考虑系统的安全性、灵活性和易维护性进行系统的设计。最后是分类原型系统的实现与应用实例。本文依靠实现的文本分类原型系统,对两种类型文本集合进行实例计算,根据计算结果和分类方案性能评估标准找出两类文本集合的最佳文本分类方案同时进一步验证了可行方案的正确性。关键词:文本分类算法;特征选择;权重设置:文本表示模型;设计模式大连理工大学硕士学位论文
知识水坝为您整理
—甒痯,,,.瑆,琣。.籨’,瓵籉籘;痗,,.,琣,,縴.,,籺
知识水坝为您整理
硝终独创性说明作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均己在论文中做了明确的说明并表示了谢意。作者签名:日期:
盟年上月鱼日露堑。墨缦大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论作者签名:导师签名:大连理工大学硕士研究生学位论文文。
“项目管理中项目关联分析与立项决策支持系统研究,国家自然科学基金项目”。项目的相关性分析依据项目建议书的研究内容,这里涉及的一个基本问题就是文本分类问题。作者同时发现,从文本分类的角度看,实际文本集合类型有多种,每种类型都有它自身的特点,不能照搬在一般语料库基础上得出的关于分类方法优劣的结论,正确的做法应该针对文本集合特点寻找符合其特点的分类方案。因此问题的提出既来源于基金项目,又不局限于基金项目。本文的主要工作在于分析并总结常用的基本文本分类方法特点,针对类别结构特点提出判断不同类别结构文本集合的判断方法,对不同类型的文本集合依据其特点定性分析可行的文本分类方案,设计最佳分类方案选择方法,通过实验与实例可行方案与最佳方案的正确性。由于一般的文本分类系统的分类方案单一或者只关注文本分类方法某一方面,对多种分类方案比较十分不便,因此本文另一个重要工作在于设计并实现一种集成多种常用文本分类方法的文本分类原型系统,除具有一般文本分类系统文本分类、分类算法训练等功能外,最重要的功能在于可方便快捷的更换分类方案,增加灵活性和提高工作效率。.芯课侍獾囊庖在研究方面,目前文本分类问题的研究通常致力于寻找一种通用的学习算法,使其能够适应各种不同类别的文本分类需求,在这一问题的研究中通常采用的文本是新闻类文本、电子邮件。然而,由于文本类别的多样,而各种不同类别的文本又具有各自不同的特征,因此文本分类问蹶一直难以得到满意的结果。择方法的框架,包括文本集合类型的判断,根据特点分析可行分类方案,最佳分类方案选择;第二,提出对不同类别结构的文本集合类型的判断公式与标准,通过分析以及实验,给出不同类别结构的文本集合的最佳分类方案;第三,设计并开发一种集成多种常用文本分类基本方法的原型系统,可用于文本分类并能方