1 / 6
文档名称:

一个基于概念的中文文本分类模型.doc

格式:doc   页数:6
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一个基于概念的中文文本分类模型.doc

上传人:908566299 2013/11/8 文件大小:0 KB

下载得到文件列表

一个基于概念的中文文本分类模型.doc

文档介绍

文档介绍:一个基于概念的中文文本分类模型
苏伟峰李绍滋
厦门大学计算机科学系厦门 361005
摘要本文提出一个电子文档的自动分类的模型:基于《知网》之上,经过对文档的关键词的抽取和排岐, 进而得到关键词的概念,再对关键词的概念进行综合而得到该文本的所属的类别,实验证明该模型有较好的效果。
关键词文本分类概念《知网》全信息
一、引言
在过去几年中随着科学技术的迅猛发展,特别是随着因特网的快速发展,各种信息情报激增,特别是网上信息浩如烟海,人们可能通过因特网能很快地得到大量的资料,因此如何对所获得资料进行科学有效地管理是摆在人们面前一个不可回避而又很有意义的问题。对资料进行管理一个很常见的方法就是对它们系统地进行分类。
显然,用人工对文本材料进行分类的过程是通读所有文章,然后再对它们进行归类保存。
当然这需要许多具有丰富经验和专门知识的分类人员做大量的工作,显然这个过程具有周期长、费用高、效率低的特点,在信息爆炸的今天很难满足实际需要,如何运用计算机进行自动分类成了许多人的研究方向。
一般而言,文本分类方法可分为两个类型:
基于外延方法的分类方法:这种类型的分类方法不关心文本的语义,根据文本的外在特征进行分类。最常见的方法是基于向量空间模型(Vector Space Module)的方法,该方法的思想是:把文本表征成由特征项构成的向量空间中的一个点,通过计算向量之间的距离,来判定文本之间的相似程度。采用该模型的文本分类方法一般步骤是:先通过对训练语料的学习对每个类建立特征向量作为该类的表征,然后依次计算该向量和各个类的特性向量的距离,选取距离大小符合域值的类别作为该文本所属的最终类别。这种方法有了很多的应用,但是其不足之处也是显而易见的:
%,且很难进一步向上发展
,则其归类正确率更是大打折扣。
基于语义的分类方法:这种类型的分类方法采用全部或部份理解文本的语义而进行归类。主要可以分为以下三类:

文本的语义是基于概念之上的,而词是概念的基本构成单位,从文本抽取出能反映出该文本的关键词,通过对关键词归类而进行归类,显然这种方法产生的归类其实并不是真正通过语义来进行归类,属于较早采用的技术。

基于知识库的归类技术有一个明确的知识库,知识的表示方法主要有规则库、语义模型或格框架等。基于知识的分类技术的显著特点是需要手工建造知识库,且建造的知识库领域性极强,移植非常困难。最近的研究工作表明,在一定的领域内,基于知识库的系统能够进行快速准确的分类。

基于概念的归类技术是一种介于词的分类技术和基于知识的归类技术之间的技术,它只抽取那些对文本分类有用的概念,它抽取短语周围的文本和潜在的语义概念进行文本类别的确定。基于概念的归类技术并不需要理解全文的语义,这在当前对自然语言的理解水平尚处于初级阶段的现状来说无疑是一个较好的方法。
本文提出了一个中文文本自动分类模型,它是基于概念的归类技术,建立在《知网》基础之上的,从文章中抽取出关键词,利用词产生的概念对全文进行分析,然后根据概念的类别综合进行分类。
二、知网简介
《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念之间以及概念所具有的属性之间的基本