1 / 58
文档名称:

一种提取类核的快速文本分类方法.pdf

格式:pdf   页数:58
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一种提取类核的快速文本分类方法.pdf

上传人:化工机械 2012/8/10 文件大小:0 KB

下载得到文件列表

一种提取类核的快速文本分类方法.pdf

文档介绍

文档介绍:兰州理工大学
硕士学位论文
一种提取类核的快速文本分类方法
姓名:张建兴
申请学位级别:硕士
专业:计算机应用技术
指导教师:於时才
20100420
摘要提取方法:经验法和圆心法,定义了指标——类别贡献度作为衡量特征入选类核随着电子文本呈指数级的增长,自动文本分类技术得到了越来越多的关注,这种根据文本内容自动将文本分门别类的技术为人们快速有效地组织文本和挖掘有价值的信息提供了有力的帮助。近年来,自动文本分类技术的研究获得了长足的发展,涌现出了许多新的技术和方法,但是,这些技术与方法在大规模的应用背景下仍然存在很多困难,仍然有许多课题值得研究。从研究路线角度来看,文本分类方法大致分为两种:经验主义的方法和理性主义的方法,前者的典型代表是基于机器学习的文本分类,是当今的主流方法,而后者则以基于概念的文本分类为代表。在综合分析二者的优势与不足的基础上,并受人工分类时认知过程的启发,提出了一种提取类核的文本分类方法。该方法是两条路线的有机结合,采用理性主义的方法搭建分类框架,但分类知识采用经验主义的方法由机器自动获取。提取类核的中心思想是:在自然语言中,词语是用来表达概念的,因此如果文本中那些含有类别信息的词语能够被发现,那么通过为每个类别构造具有这种性质的特征集合,即类核,计算机也同样能够根据文本内容,以类核为指导,实现自动的文本分类。本文设计了两种具体的类核的唯一标准。类别贡献度反映了特征项包含类别信息的多少和对分类贡献程度的大小,类别贡献度的计算充分考虑了特征项在类内、类间的词频分布和文档频率分布。类别贡献度不仅是选择类核特征的依据,而且作为一种分类知识被保留下来,为后续分类提供指导。在类核的基础上设计了一种称之为彩票算法的分类算法,本质上是一种特殊的集合运算。相比于传统的分类模型,提取类核的分类模型更为简洁,在设计的实验系统中,将本文方法与四种常用的特征选择方法和两种经典的分类算法进行了对比,结果表明,本文方法很好的兼顾了分类的精度与速度两项主要指标,分类性能稳定,分类速度上有较大优势。关键词:文本分类;提取类核;类别贡献度;彩票算法硕十学位论文
—!,..,,,瓵,.:,琒琤,甌:.甌瑆琣痜.—.曼。
硕宦畚:琧甀,.瑆.;;
插图索引基于机器学习的文本分类一般过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..文本分类实验系统界面⋯⋯⋯⋯⋯⋯⋯⋯图基于概念的文本分类典型过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.砺圩饔眯вα础图提取类核的自动文本分类模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..二维向量空间中的选取强类别特征项示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯.中文上下文位置与其信息量的关系⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..文本分类实验系统框架结构图⋯⋯⋯⋯⋯⋯⋯文本分类实验系统主要功能菜单⋯⋯⋯⋯一图特征选择方法的比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图三种方法的宏平均值比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.圆心法和经验法的贡献度阈值与特征数量的关系⋯⋯⋯⋯⋯⋯⋯⋯.圆心法和经验法的分类性能比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图一种提取类核的快速文本分类方法
附表索引二值列联表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.类频统计数据示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验语料类别及数量⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯不同贡献度阈值选取出的类核特征数目⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯类核特征的可视化示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.三种方法的测试时间比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯三种方法的分类时间复杂度⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..表硕宦畚
旅财,掩作者签名:备害一一日期:别口年占月‘日兰州理工大学学位论文原创性声明和使用授权说明日期:溯汐年多月占日原创性声明学位论文版权使用授权书编本学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权兰州理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇国学位论文全文数据库》,并通过网络向社会公众提供信息服务。作者签名:导师签名:日期:,甓耣日‘
第滦髀甀论文研究的背景及意义国内外的研究