文档介绍:华北电力大学(保定)
硕士学位论文
中文文本自动分类方法的研究和实现
姓名:马慧敏
申请学位级别:硕士
专业:计算机应用技术
指导教师:王保义
20041228
摘要模语料库环境下文本分类器的分类性能是研究的关键。特别对中文文本分类,目前还没有一个统一的标准。通过分析研究现有中文文本自动分类系统的实现技术,本系统。在系统的构建过程中,重点针对中文分词技术,特征选取算法和训练分类算法三部分进行了详细的分析和深入的研究,并在现有方法的基础上分别予以改进,给出了改进算法。最后通过实验分析了系统的分类性能。实验结果表明改进后分类系统的性能较改进前更加令人满意,证明了算法的有效性。关键词:中文文本自动分类,中文分词,特征选取,分类算法文本分类是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。它是文本挖掘的基础与核心。对国内外该课题的研究分析可知,如何提高大规文对该课题进行了进一步的探讨,设计并实现了一个基于分词的中文文本自动分类华北电力大学硕士学位论文摘要..,,篊,.,,甌,,,
姥钯星茎玺日圻考之期:盟克坑关于学位论文使用授权的说明声明期:忽期:之丝ダ枷———————‘!!!R婷艿难宦畚脑诮饷芎笞袷卮斯娑导师签名:本人郑重声明:此处所提交的硕士学位论文《中文文本自动分类方法的研究和实现》,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。学位论文作者签名本人完全了解华北电力大学有关保留、使用学位论文的规定,即:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅:④学校可以学术交流为目的,复制赠送和交换学位论文:⑤同意学校可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。作者签名:论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大日
第一章引言课题的目的和意义当前由于计算机硬件及数据库技术的不断进步,、内容包罗万象的文字信息开始以计算机可读的形式存在,并且其数量每天仍在急剧增加。一方面,这使我们获得了有效且廉价、可靠的数据存取手段和极度丰富的数据资源:另一方面,也使得无论是商业企业、科研机构或者政府部门,都积累了大量的文档资料,面临着海量的信息。但现实中,具体的信息用户往往只需要其中的很少一部分。如何在浩若烟海面又纷繁复杂的文本中掌握最有效的信息始终是信息处理的一大目标】。如果仅仅通过人工的手段对庞大的原始文档集进行组织和整理,不仅费时、费力,效果也未必很理想;相比之下,如果能由计算机直接对文档信息进行过滤、分类,把用户真正感兴趣的部分提交给用户,就能使用户从繁琐的文档处理工作中解放出来,更加便捷地认识和区分不同的文档内容,使大量的繁杂的文档条例化和系统化,并能极大地提高信息的利用率。因而,文本自动分类成为目前文本信息处理中的~个重要环节,是重要的研究课题之一。简单地讲,文本自动分类就是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。通过文本分类技术还可以弥补传统搜索引擎的不足,过滤用户不需要的文章,并将检索结果分门别类,使用户能够清晰地发现自己感兴趣的内容,比如将网页放在一个巨大的层次分类结构中,通过组装维护这些类别来帮助用户查找知识和信息【。同样,在政府机关或企业的邮件接收器中使用文本分类技术,可以根据邮件标题和正文的内容将邮件分类,分发到与之相关的部门,从而进行处理,,文本自动分类系统是文本挖掘的基础与核心,是自然语言处理的一个十分重要的研究方向:同时在大规模信息处理方面是一项基本而重要的功能,是重要的应用技术之一。通过文本自动分类系统,能够很好地帮助用户整理、获取信息,在提高信息检索的速度和准确率方面显得意义重大,具有很重要的研究价值口W源甑谝唤霮年会以来,对这一领域感兴趣的研究与开但在大规模数据库的情况下已涌现出许多新的待解决的问题。针对目前在中文文本自动分类方面研究还不成熟,文本分类技术与其他信息技术尚未很好结合的现状,本课题应运而生,以期对中文文本自动分类的研究起到推动与发展的作用。工作效率。发人员即开始专题讨论这~问题,至年最终召开第~届关于知识发现与数据挖掘的国际会议’K淙淮邮或观察谐槿≈J恫皇鞘裁葱碌目翁猓华北电力大学硕士学位论文
文本自动分类系统的特点拟定题目在文档提高文本分类系统的性能,也展开了一定的研究㈣。.翁庠诠獾姆⒄⒄骨