文档介绍:西安电子科技大学
硕士学位论文
基于知网语义相似度的中文文本聚类方法研究
姓名:许君宁
申请学位级别:硕士
专业:情报学
指导教师:刘怀亮
20100101
摘要当前人们正处于一个“信息爆炸”的时代。在线信息日益增多,其中包括新者和研究人员迫切希望解决的问题。如何在没有分类指导的情况下对自由文档进本文在对中文文本聚类现状研究的基础上,对中文文本聚类的关键技术进行了归纳性总结,其中包括文本自动分词、特征选取、特征重构、文本表示、文本间的相似性度量及聚类算法。分析了几种用于文本聚类的特征选取方法及其对聚类性能的影响;介绍了几种中文文本表示模型及聚类方法并指出其不足,重点分析了聚类中最常用的算法,以及各种算法对聚类结果的影响。针对中文文本处理面临的模型表示及语义关联的难题,本文着重从语义上分析文本。首先采用了词性过滤进行文本预处理的方法,删减了大部分无用的或对分类贡献不大的特征,其次通过特征语义聚类使得文本特征集更能体现文本的语义内涵,再根据词语频率选择文档的特征集,使得特征集更具有分类功能,经过以上三层处理之后,得到本文中高效低维的特征集,加快了聚类的速度并提高了聚类精度。建立了一种基于语义特征并体现特征分类强度的文本表示模型,将文档表示为一组特征词集合,利用特征词间的语义相似度计算文本间的相似度。这样真正从语义上具体分析文本之间的相似度,使结果更接近人的主观衡量,且能够将文本间的相似度量化,更利于计算机识别处理。基于这种文本表示模型,构建了基于知网语义相似度的聚类模型。最后用程序实现了该聚类算法,通过实验分析证明了语义相似度闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆等等,很大一部分信息属于非结构化或半结构化的。面对网上海量的半结构化或非结构的文本信息,如何快速高效的进行分类组织管理,为用户准确提供有用信息,是所有信息工作行分类并标识,为越来越多的研究人员所关注。和词语倒排文档频率本文提出的聚类方法的有效性。关键词:聚类特征抽取文本模型
.锄”,琣,琩,—.—痑.,,瓵,.珺瑃盿.,琫瑃—琫.,琱瓾,瑃,;.琲甌’
基于知网语义相似度的中文文本聚类方法研究:
本人签名:毕泣一日期丝丝西安电子科技大学学位论文独创性创新性关于论文使用授权的说明导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说申请学位论文与资料若有不实之处,本人承担一切的法律责任。本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分后结合学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学。秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在明并表示了谢意。内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业本人签名:导师签名:
第一章绪论研究背景与意义作方式,人们正处于一个“信息爆炸氖贝T谙咝畔⑼嬖龆啵渲邪ㄐ闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆等等,很大一部分信息属于非结构化或半结构化的。面对网上海量的半结构化或非结构的文本信息,者或研究人员迫切希望解决的问题。传统的做法是对网上信息进行人工分类,并加以组织和整理,为人们提供一种相对有效的信息获取手段。但是,这样做费时没有分类指导的情况下对自由文档进行分类并标识,作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、或类,并对类进行标注【【。其原则是使同一类中的样本彼此之间相似,不同类别的样本之间相似性很小或不相似。对于计算机,由于它不具有人类的智能,要正确地执行文本聚类的任务,首先要将文本的有用信息输入计算机中,为此应对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。用简单而准确文本的表示方法借鉴了文本检索的许多表示方法和技术,这主要是因为文本检索技术的发展历史久远、技术相对成熟的缘故。文本检索中常用的计算模型:率模型理特征加权、类别学习和相似计算等问题。向量空间模型和机器学习算法在文本自动处理领域中的紧密结合和成功运用,使得基于向量空间模型的文本表示方法迅速成为文本分类研究领域中文本表示的主流方法。向量空间模型是由在上世纪年代提出的,最早成功应用于信息检索领域,后来又在文本分类领域得到了广泛的运用【。以向量空间模型