1 / 76
文档名称:

中文WEB文本分类技术研究(可复制论文).pdf

格式:pdf   页数:76
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

中文WEB文本分类技术研究(可复制论文).pdf

上传人:mkt365 2013/11/14 文件大小:0 KB

下载得到文件列表

中文WEB文本分类技术研究(可复制论文).pdf

文档介绍

文档介绍:摘要谋痉掷嗍侵附玏文档集合中每个文档归入一个预先定义的类别之中,是谋就诰虻囊幌钪匾<际酰币彩侵悄苄畔⒓焖骱痛砹煊虻囊个新兴和重要的研究方向。由于国内相关技术起步较晚,加上中文语言的特殊性,中文谋痉掷嗉际跸喽月浜蟆本文分析了谋痉掷嗟闹匾R庖澹樯芰斯谕馕谋痉掷嘌芯肯肿刺乇是中文谋痉掷嘌芯肯肿矗晗附樯芰酥形腤文本分类的过程与关键技术:首先是谋驹ご恚缓笫俏谋颈硎尽⑺饕伞⑻卣餮∪〉炔街瑁包括多种特征选取方法;接着,详细介绍了几种文本分类算法,包括⑵铀乇匆端沟龋蝗缓螅樯芰顺S玫奈谋痉掷嗨惴ǖ钠兰壑副辍本文重点对中文谋痉掷嗉际踅辛朔⒄购透慕1疚慕玈和的结合算法惴ㄓτ糜赪文本分类,以弥补传统惴ǖ囊些缺点,获得更好的分类效果;提出了一种基于密度的调整盗芳姆椒ǎ通过对训练集的调整,降低了惴ǖ姆掷嗉扑愀丛佣龋碧岣吡朔掷嘧确性;提出了一种用无监督聚类算法指导文本分类的方法,以解决没有训练集的文本分类问题。对于所提出的每种算法,本文都给出了相关的实验数据,通过实验,验证了改进效果,证实了算法的有效性。最后,本文设计并实现了一个中文谋痉掷嘞低常晗附樯芰讼低车母个模块的设计以及系统训练集和测试集的选取。本文的实验均是在这个系统上完关键词:文本分类;籏成的。
知识水坝为您整理
甌;,狵,;籏瑃,,,..琒,..:甀疭:,.,.瓼.,
知识水坝为您整理
声明人┟:秀勇厦门大学学位论文原创性声明兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。本人在论文写作中参考的其他个人或集体的研究成果,均在文中以明确方式标明。本人依法享有和承担由此论文产生的权利和责任。5赌甏踉鹿
导师签名:玉乏鼍作者签名:嗜缰厦门大学学位论文著作权使用声明⒉槐C芮吡日期:,唧年/月多矿日日期:如矿年/月知日本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。本学位论文属于⒈C年解密后适用本授权书。朐谝陨舷嘤ê拍诖颉啊,
,网络信息的多样性和多变性导致信息迅速膨胀,信息检索,内容管理及信息过滤等变得越来越重要和困难。同时,企业信息化程度的提高,文本信息的快速积累使企业、政府、科研机构等面临前所未有的挑战。一方面,互联网和企业信息系统每天都不断产生大量文本数据,这些文本资源中蕴含着许多有用信息;另一方面由于技术手段的落后,用户从虾A俊⒍⒁旃沟姆岣恍畔⒆试粗锌焖佟⒂行У夭檎易约焊行巳さ男畔从而获取潜在的有价值的知识十分困难,即人们面临着“信息爆炸’’而“知识贫乏R虼耍嗣瞧惹行枰Q芯砍鲇行У姆椒ê褪侄未哟蠊婺N谋拘畔⒆试粗刑取符合需要的简洁、精炼、可理解的知识乜,引。为组织和管理互联网上的海量信息,准确、方便和快捷的帮助人们找到感兴趣的信息,根据定制用户的兴趣为用户提供个性化的服务,跟踪和发现用户的兴趣,从而为用户推荐感兴趣的信息,谋就诰蚣际跤υ硕⒕哂性嚼丛巨大的应用背景。而作为谋痉掷嘧魑猈文本挖掘的重要技术和重要内容,有着越来越重要的意义,已经成为智能信息检索和处理领域的一个新兴和重谋就诰虻闹匾R庖文本挖掘是以计算语言学、统计数理分析为理论基础,结合机器学习和信息检索技术,从大量的文本数据中发现和提取隐含的、事先未知的知识,最终形成用户可理解的、有价值的信息和知识的过程。可以一般地将诰蚨ㄒ逦#诰蚴侵复哟罅縒文档的集合蟹⑾忠哪J絇。谋就诰蚴侵付訵上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用牡到星魇圃げ獾龋蛞=馐腿缦玛彼荆要的研究方向。.
文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。文档总结在有些场合十分有用,例如搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。这样,用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。文本聚类与分类的不同之处在于,聚类没有预先定义好的主题类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇间的相似度尽可能地小。因此,我们可以利用文本聚类技术将搜索引擎的检索结果划分为若干个簇,用户只需要考虑那些相关的簇,从而大大缩小了所需要浏览的结果的数量。关联分析是指从文档集合中找出不同词语之间的关系。分布分析与趋势预测是指通过对牡档姆治觯玫教囟ㄊ菰谀掣历史时刻的情况或将来的取值趋势。谋痉掷嗟闹匾R庖谋痉掷嗍荳