1 / 61
文档名称:

中文文本自动分类方法的研究和实现.pdf

格式:pdf   页数:61
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

中文文本自动分类方法的研究和实现.pdf

上传人:779277932 2011/7/22 文件大小:0 KB

下载得到文件列表

中文文本自动分类方法的研究和实现.pdf

文档介绍

文档介绍:华北电力大学(保定)
硕士学位论文
中文文本自动分类方法的研究和实现
姓名:马慧敏
申请学位级别:硕士
专业:计算机应用技术
指导教师:王保义
20041228
摘要模语料库环境下文本分类器的分类性能是研究的关键。特别对中文文本分类,目前还没有一个统一的标准。通过分析研究现有中文文本自动分类系统的实现技术,本系统。在系统的构建过程中,重点针对中文分词技术,特征选取算法和训练分类算法三部分进行了详细的分析和深入的研究,并在现有方法的基础上分别予以改进,给出了改进算法。最后通过实验分析了系统的分类性能。实验结果表明改进后分类系统的性能较改进前更加令人满意,证明了算法的有效性。关键词:中文文本自动分类,中文分词,特征选取,分类算法文本分类是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。它是文本挖掘的基础与核心。对国内外该课题的研究分析可知,如何提高大规文对该课题进行了进一步的探讨,设计并实现了一个基于分词的中文文本自动分类华北电力大学硕士学位论文摘要..,,篊,.,,甌,,,
姥钯星茎玺日圻考之期:盟克坑关于学位论文使用授权的说明声明期:忽期:之丝ダ枷———————‘!!!R婷艿难宦畚脑诮饷芎笞袷卮斯娑导师签名:本人郑重声明:此处所提交的硕士学位论文《中文文本自动分类方法的研究和实现》,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。学位论文作者签名本人完全了解华北电力大学有关保留、使用学位论文的规定,即:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅:④学校可以学术交流为目的,复制赠送和交换学位论文:⑤同意学校可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。作者签名:论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大日
第一章引言课题的目的和意义当前由于计算机硬件及数据库技术的不断进步,、内容包罗万象的文字信息开始以计算机可读的形式存在,并且其数量每天仍在急剧增加。一方面,这使我们获得了有效且廉价、可靠的数据存取手段和极度丰富的数据资源:另一方面,也使得无论是商业企业、科研机构或者政府部门,都积累了大量的文档资料,面临着海量的信息。但现实中,具体的信息用户往往只需要其中的很少一部分。如何在浩若烟海面又纷繁复杂的文本中掌握最有效的信息始终是信息处理的一大目标】。如果仅仅通过人工的手段对庞大的原始文档集进行组织和整理,不仅费时、费力,效果也未必很理想;相比之下,如果能由计算机直接对文档信息进行过滤、分类,把用户真正感兴趣的部分提交给用户,就能使用户从繁琐的文档处理工作中解放出来,更加便捷地认识和区分不同的文档内容,使大量的繁杂的文档条例化和系统化,并能极大地提高信息的利用率。因而,文本自动分类成为目前文本信息处理中的~个重要环节,是重要的研究课题之一。简单地讲,文本自动分类就是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。通过文本分类技术还可以弥补传统搜索引擎的不足,过滤用户不需要的文章,并将检索结果分门别类,使用户能够清晰地发现自己感兴趣的内容,比如将网页放在一个巨大的层次分类结构中,通过组装维护这些类别来帮助用户查找知识和信息【。同样,在政府机关或企业的邮件接收器中使用文本分类技术,可以根据邮件标题和正文的内容将邮件分类,分发到与之相关的部门,从而进行处理,,文本自动分类系统是文本挖掘的基础与核心,是自然语言处理的一个十分重要的研究方向:同时在大规模信息处理方面是一项基本而重要的功能,是重要的应用技术之一。通过文本自动分类系统,能够很好地帮助用户整理、获取信息,在提高信息检索的速度和准确率方面显得意义重大,具有很重要的研究价值口W源甑谝唤霮年会以来,对这一领域感兴趣的研究与开但在大规模数据库的情况下已涌现出许多新的待解决的问题。针对目前在中文文本自动分类方面研究还不成熟,文本分类技术与其他信息技术尚未很好结合的现状,本课题应运而生,以期对中文文本自动分类的研究起到推动与发展的作用。工作效率。发人员即开始专题讨论这~问题,至年最终召开第~届关于知识发现与数据挖掘的国际会议’K淙淮邮或观察谐槿≈J恫皇鞘裁葱碌目翁猓华北电力大学硕士学位论文
文本自动分类系统的特点拟定题目在文档提高文本分类系统的性能,也展开了一定的研究㈣。.翁庠诠獾姆⒄⒄骨

最近更新

2025年晋中职业技术学院单招职业适应性考试模.. 39页

2025年景德镇艺术职业大学单招职业技能考试模.. 41页

2025年曲靖职业技术学院单招职业适应性考试模.. 40页

2025年杨凌职业技术学院单招职业倾向性测试题.. 39页

2025年杭州医学院单招综合素质考试题库带答案.. 39页

2025年松原职业技术学院单招职业倾向性考试模.. 40页

2025年枣庄科技职业学院单招综合素质考试题库.. 38页

2025年枣庄职业学院单招职业适应性测试题库最.. 40页

2025年柳州职业技术学院单招职业技能考试模拟.. 41页

2025年株洲师范高等专科学校单招职业技能考试.. 40页

2025年桐城师范高等专科学校单招职业适应性测.. 41页

2025年榆林能源科技职业学院单招职业适应性考.. 39页

2025年武汉信息传播职业技术学院单招职业技能.. 40页

2025年武汉民政职业学院单招职业倾向性测试模.. 40页

2025年武汉铁路桥梁职业学院单招职业技能考试.. 40页

2025年毕节幼儿师范高等专科学校单招职业倾向.. 41页

2025年民办四川天一学院单招综合素质考试模拟.. 41页

八年级数学下册dk01-期末题组练一 数据的收集.. 18页

《原子结构与元素的性质》课件 91页

2025年江汉艺术职业学院单招职业倾向性测试题.. 41页

2025年江苏医药职业学院单招职业倾向性考试模.. 40页

2025年江苏城市职业学院单招综合素质考试模拟.. 40页

2025年江苏旅游职业学院单招职业适应性测试模.. 40页

2025年国家开放大学《建筑力学》章节测试参考.. 13页

【人教版英语字帖】七年级下册单词表衡水体字.. 42页

食品安全自查、从业人员健康管理、进货查验记.. 9页

康复医院设置标准1 14页

介绍医院门诊ppt 28页

农村人才流失国外研究报告 2页

空调系统维保记录表格模板 7页