1 / 5
文档名称:

文献跨库检索中去重方法研究与应用.pdf

格式:pdf   页数:5
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

文献跨库检索中去重方法研究与应用.pdf

上传人:你是我的全部 2013/8/11 文件大小:0 KB

下载得到文件列表

文献跨库检索中去重方法研究与应用.pdf

文档介绍

文档介绍:《现代图书情报技术》版权所有,欢迎下载引用!
请注明引用地址:文献跨库检索中去重方法研究与应用[J],现代图书情报技术,2011(7):116-120.
应用实践
文献跨库检索中去重方法研究与应用
郝丹1 周津慧1,2 关贝2 王衍喜2 韩继欣3
1(西安电子科技大学经济管理学院西安 710071)
2(中国科学院软件研究所北京 100190)
3(华北电力物资总公司北京 100075)
【摘要】以作者和单位发文的统计需求为背景,分析作者和单位发文在跨库检索中产生数据冗余的特殊成因,在
借鉴网页去重的基础上,设计中文跨库 ID、英文跨库 ID、DOI以及“标题+类型”4种文献跨库去重方法,解决中文
库之间、英文库之间以及中英文库之间的冗余问题,并有效应用于专家发文和单位发文信息获取与统计工作中。
【关键词】跨库检索去重策略文献信息
【分类号】G250
ResearchonDuplicatedLiteratureDeletionMethodBasedon
Cross-databaseSearch
HaoDan1 ZhouJinhui1,2 GuanBei2 WangYanxi2 HanJixin3
1(SchoolofEconomicsandManagement,XidianUniversity,Xi’an710071,China)
2(InstituteofSoftware,ChineseAcademyofSciences,Beijing100190,China)
3(pany,Beijing100075,China)
【Abstract】
thatcausedataredundancyincross-databasesearchingareanalyzed,andfourduplicateremovalmethodsincludingCross
ChineseDatabaseID,CrossEnglishDatabaseID,DOIand“Title&Type”areproposedandappliedinliteraturestatis
ticsworkeffectively,whichcanbettersolvethecross-databaseredundancyproblemsbetweendifferentdatabases.
【Keywords】Cross-databasesearching Duplicateremovalstrategy Literatureinformation
1 引言
随着对个人及单位发文统计需求的不断增加,通过对单一数据库检索和简单的跨库检索已经无法满足用户
需求。其原因在于:文献数据库产品内容交叉重复现象比较严重[1],当检索某一作者/单位发文时,跨库检索结果
中不可避免地会出现大量的重复冗余文献,使得用户不得不对检索结果采取人工方式进行去重处理,而且这种人
工排查的时间开销远大于检索过程所耗费的时间。因此,如何