文档介绍:第一节、检索的基本原理
信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择, 是两者匹配(match)的过程。一方面是用户的信息需求, 一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search, locate, hit) 相关的信息。 匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。
信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:
1、信息的特征
一篇文章、一本书、一份报告等一般都有以下特征:
一、外表特征:题目、作者、作者工作单位,专利和科技报告还有专利号或报告号等,这些可以表征一篇特定文献的特征可以在文献的封面或扉页,即不打开书本,或不看文献的具体内容就可以确定一篇文献。
二、内部特征:假如我们深入到文献内容中间,则可以发现还可用另外两种方法来表征它:
,一篇文献都是论及某一方面的特定问题的,也就是说,与论题相关的词出现的频率较大。以前的研究表明,无论哪一种类型的文献,若对文献中出现的词进行频率统计的话,会发现所有的词可分为三类
、介词和连词等,即其本身没有具体含义的词,如a、an、the、this、that、or、and、in、on、with等;
;
,在文献中约3-20个之间,这些词恰恰是与文献的主题相关度较大的词,我们称之为文献的主题词或关键词。
,一篇文献还可以按照各种自然科学和社会科学的分类方法进行归类,如《中图法》:
O 数、理、化
O1 数学
O12初等数学
O123初等几何
特征
外表特征
主题特征
内容特征
分类特征
标
识
标题、作者、作者工作单位
主题词、关键词
文摘、说明、全文
分类号
对应
精确对应
模糊对应
模糊(精确)对应
模糊对应
2、特征对应关系
3、检索语言的概念
语言是一种人们用以交流沟通的重要工具。人与计算机对话,需要有计算机语言,人与检索系统对话来实施检索,则需要有检索语言(retrieval language)。
检索语言是用于描述检索系统中信息的内部及外部特征和表达用户信息提问的一种专门语言,检索的匹配正是通过语言的比较匹配来实现的。检索语言也称索引语言,后者是从检索系统的标引角度出发的,而前者是从用户的信息检索角度出发的。
不同的检索语言构成不同的标目及其索引系统,提供各种检索点。
人工语言(规范语言) 和自然语言(非规范语言)
artificial language:受信息检索的控制,使用控制、规范词(controlled term)。人工语言的规范处理重在两个方面:一是使一个概念只用一个词汇来表达,这样就避免了多词一义的情况;二是使一个标引词只能表达一个概念,这样就排除了一词多义现象。
natural language :自然语言是取其自然形态,不受控,使用非规范词(uncontrolled term)或称自由词(free term)。自然语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交叉的现象。常见的有同义词、近义词、同型异义词等。
分类语言和主题语言
分类语言也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表,如图书分类表、专利分类表用的都是分类语言。
主题词语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。