1 / 6
文档名称:

科技文献关键词冗余解决方案研究.pdf

格式:pdf   页数:6
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

科技文献关键词冗余解决方案研究.pdf

上传人:1520734578 2014/4/17 文件大小:0 KB

下载得到文件列表

科技文献关键词冗余解决方案研究.pdf

文档介绍

文档介绍:《现代图书情报技术》版权所有,欢迎下载引用!
请注明引用地址:科技文献关键词冗余解决方案研究[J],现代图书情报技术,2012(1):34-39.
知识组织与知识管理
科技文献关键词冗余解决方案研究
邢美凤
(中国科学院国家科学图书馆北京 100190)
(中国科学院研究生院北京 100049)
(晋中学院图书馆晋中 030600)
【摘要】提出一种改进的基于相似度计算的科技文献关键词选取算法。先利用 N-gram算法提取领域词库,再综
合利用领域词库和常识词库,对最初选择的关键词重新切分,进行给定关键词之间的语义对比。语义相似度大于
一定阈值的关键词被认为是表达同一意义的同义词,将同义词在文献库中合并,从而解决关键词冗余问题。实验
结果可以证明该方法的有效性。
【关键词】科技文献关键词冗余语义相似度特征降维
【分类号】
StudyonSolutiontoRedundancyofScientificLiteratureKeywords
XingMeifeng
(NationalScienceLibrary,ChineseAcademyofSciences,Beijing100190,China)
(GraduateUniversityofChineseAcademyofSciences,Bejing100049,China)
(JinzhongUniversityLibrary,Jinzhong030600,China)
【Abstract】,thispaper
-segmentskeywordsusingfield
mon-
threshold,paredkeywordsareconsideredtoexpressthesamemeaning,thenmergingandkeepingonlyoneof
theminlibrary,,experimentalresultsshowtheeffective
nessofthemethod.
【Keywords】Scientificliteraturekeywords Redundancy Semanticsimilarity Featurereduction
在利用作者给定的关键词进行科学研究的过程中,由于关键词数量庞大,经常要截取词频较大的一部分进行
分析。这种方法有一定的科学依据,但由于作者给定的关键词不规范,同一意义在关键词中会以多种形式出现,
以词频的方式选取关键词会丢失大量有用的信息。如果在