文档介绍:第二章信息检索技术
第一节信息检索的概念
第二节信息检索数据库
第三节检索语言和检索效果评价
第四节科技信息检索的基本流程
第五节原文获取
第一节信息检索的概念
1、检索的意义
信息具有共享性,信息资源共享(information resource sharing)是当今社会的一个热点问题。为了分享人类共同的知识财富、研究成果,人们必须通过一种科学的方法从取之不尽的信息源中去识别和获取所需要的那部分信息,这个过程就是检索(searching)。
信息的检索、利用和创造是一个循环和增值的过程,人们通过工具(数据库)检索获得信息,经过处理筛选出需要的部分,在利用信息的过程中又创出新的信息,这些信息经过核准后又被标引、组织进检索工具(数据库),再提供人们使用,信息在这个循环的处理过程中不断得到扩充,它的增长是没有穷尽的。
2、检索的基本原理
信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择, 是两者匹配(match)的过程。一方面是用户的信息需求, 一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search, locate, hit) 相关的信息。 匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。
信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:
3、检索点
检索点(access point)是检索的出发点,以前常用“检索途径”(approach)这一术语。
每件文献均有内部的(信息内容)特征及其相关的外部特征,在检索系统中检索点是标目的总称。
从文献的特征出发,将其特征值与检索系统中标目数据进行计算比较,通过匹配达到检索目的。
反映文献信息内容特征:分类检索和主题检索;
反映文献外部特征:作者、名称和号码检索等。
1)分类检索(classification)
分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系(classification system)。 分类体系按文献内容特征的相互关系加以组织,并以一定的标记(类号)作排序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。较权威的图书分类法有:中国图书馆图书分类法
美国国会图书馆分类法(Library of Congress Classification)
杜威十进分类法(Dewey decimal Classification system)
2)主题检索
主题(subject)检索是从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。检索按主题词的音或形的字顺进行,其方式如查字典、词典。主题词有多种类型:有规范词和自由词,有单元词和多元词,有先组结构和后组结构等。主题词的合理选择与使用对检索结果的优劣直接相关。
3)作者检索
作者(author)检索是从文献的作者姓名出发来检索其文献。“作者”广义上还应包括:piler)、编者(editor)、主办者(sponsoring body)、译者(translator)等
此外,还有代表机构、单位的团体作者(corporate author),包括作者所在单位(author's affiliation)。