1 / 13
文档名称:

一种基于本体论和潜在语义索引的文本语义处理方法.doc

格式:doc   大小:30KB   页数:13页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一种基于本体论和潜在语义索引的文本语义处理方法.doc

上传人:文库旗舰店 2020/1/9 文件大小:30 KB

下载得到文件列表

一种基于本体论和潜在语义索引的文本语义处理方法.doc

文档介绍

文档介绍:一种基于本体论和潜在语义索引的文本语义处理方法一种基于本体论和潜在语义索引的文本语义处理方法《现代图书情报技术》2006年第9期信息检索技术总第141期一种基于本体论和潜在语义索引的文本语义处理方法冰秦春秀刘怀亮赵捧未(西安电子科技大学经济管理学院西安710071)【摘要】,然后采用潜在语义索引方法以虚拟标准文本特征向量为参照对文本集进行语义聚类,,该方法能较好地在语义层面对文本进行有效的聚类,而且聚类结果能显性地显示类聚所属的类别.【关键词】潜在语义索引本体论文本聚类语义标注【分类号】(SchoolofEconomicsandManagement,XidianUniversity,Xi'an710071,China)【Abstract】,virtualstandardtextcharacteristicvectorsareconstructed;then,ordingtovirtualstandardtextcharacteristicvectorsbyusinglatentsemanticindexingmethod;finally,semanticallyexplicitannotationstothedocumentsetsareabtainedfromOntology—,andtheclusteringcanexplicitlyindicatecategoriesoftheclustereddocuments.【Keywords】LatentsemanticindexingOntologyClusteringSemanticsAnnotationl引言随着因特网信息的的迅猛发展,,,可以大大降低文本特征项之间的"斜交"现象,将词汇空间映射为潜在语义空间,:2006—06—20收修改稿日期:2006—07—06本文系国家自然科学基金项目"基于语义网的多媒体知识元发现与挖掘"(项目编号:70503022)的研究成果之一.?34?文本表示为潜在语义,但缺乏明确的解析表达,没有直观性,,利用它可以将特征项进行语义标注…,这样可以使聚类获得的文本集合具有很好的层次含义,(LatentSemanticIndexing,LSI),文本中的词与词之间存在某种联系,即存在某种潜在的语义结构,因此采用统计的方法来寻找该语义结构,,(position,简称SVD分解).对于任意秩为r的t×d矩阵存在如下分解:A.=T0s0D0,其中,To,D0是各列正交,ToTT0=I,D0TD0=I,s0=diag(,,…,i),??…?i>《现代图书情报技术》2006年第9期信息检索技术总第141期的K值,,删除T0,,D,运算得到新的矩阵A=TSD,用它去近似原始矩阵,::,克服单纯项