1 / 15
文档名称:

信息检索技术方法及搜索引擎.doc

格式:doc   页数:15页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

信息检索技术方法及搜索引擎.doc

上传人:fy5186fy 2016/6/2 文件大小:0 KB

下载得到文件列表

信息检索技术方法及搜索引擎.doc

文档介绍

文档介绍:信息检索技术方法及搜索引擎信息检索技术方法及搜索引擎第一节: 信息检索技术数字资源的检索技术布尔逻辑检索技术 1 截词检索技术 2 邻近检索技术 3 字段检索技术 4 布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法. 主要的布尔逻辑关系词有: 逻辑与(AND), 逻辑或(OR), 逻辑非(NOT) 1 布尔逻辑检索技术逻辑与逻辑乘: "and" 或"*" 表示组配方式:A*B 或者 A and B 表示两个概念的交叉和限定关系, 只有同时含有这两个概念的记录才算命中信息作用: 增加限制条件, 即增加检索的专指性, 以缩小提问范围, 减少文献输出量, 提高查准率. 逻辑或又称逻辑和:"or","+" 组配方式:A ORB 或者 A+B, 表示检索含有 A词, 或含有 B词, 或同时包含 A,B 两词的文章. 作用: 放宽提问范围, 增加检索结果, 起扩检作用, 提高查全率. 逻辑非又称逻辑差: "not" "-" 组配方式:A-B, 表示检索出含有 A 词而不含有 B 词的文章. 作用: 逻辑非用于排除不希望出现的检索词, 它和"*" 的作用相似,能够缩小命中文献范围, 增强检索的准确性. 例如检索:" 打印机驱动程序" 查询关键词: 打印机, 驱动程序检索表达式: 打印机 AND 驱动程序例如检索:" 微型计算机" 方面的有关信息查询关键词: 微型计算机, 微机检索表达式: 微型计算机 OR 微机布尔逻辑检索举例布尔运算符优先级比较有括号时: 括号内的先执行; 无括号时:NOT > AND > OR 例: 检索" 唐宋诗歌" 的有关信息. 关键词:唐,宋, 诗歌; 检索表达式:(唐 OR宋)AND 诗歌;唐 AND 诗歌 OR宋 AND 诗歌; 错误表达式:唐 OR宋 AND 诗歌;唐 AND 宋 AND 诗歌;唐 OR宋 OR 诗歌;唐 AND 宋 OR 诗歌; 布尔逻辑运算符优先级请注意在不同的数据库中, 所使用的逻辑符号可能是不同的, 有的用"and,or,not" 有的用"*,+,-". 一些检索工具会完全省略任何符号和关系, 直接把布尔逻辑关系隐含在菜单中. 一些网络检索工具如搜索引擎甚至用"〕,,,-"( 即空格, 逗号, 减号) 来表示. 主要应用于西文数字资源的检索定义: 是指在检索式中用专门的符号( 截词符号) 表示检索词的某一部分允许有一定的词形变化. 作用: 主要是提高查全率截词符一般用""或"*" 表示 2 截词检索技术截词位置按截词位置可分为前截词, 后截词, 前后截词和中间截词; 按截断字符数的不同, 可分为有限截断和无限截断. 右截词, 又称后截词, 前方一致. * 将检索 puter ,puterizati on 等结果. 中间截词, 又称前后方一致. wom*n, 检索到 woman,women 的结果. 英美的不同拼法,defen*e 可同时检出 defence 和 defense 的结果. 左截词, 又称前截词, 后方一致, 允许检索词前有若干变化, 例如*physics 就可检索到 physics,astrophysics,biophysics,chemophysics,geophysic s 等词的结果. 前后截词: 词干的前后各有一个截词符, 可检 puterization, puter,puters,puter,puter s , 所使用的截词符号没有统一的标准, 有的用" ", 有的用"*", 有的用"#", 用的用"$" 等. 即便常用的""和"*" 在不同的数据库中其用法也是不一定相同的. 在允许截词的检索工具中, 一般是指右截词, 部分支持中间截词, 左截词比较少见. 我们将要使用的一些数据库, 一般用"*" 代表一个字符串,用"" 代表任意一个字符. 邻近检索又称位置检索, 主要是通过检索式中的专门符号来规定检索词在结果中的相对位置. 例如检索" 生物防治" 的文献, 若用检索式"biological*control" 检索, 则会将" 抑制生物"(control biological) 的文献也查出来, 这显然不是所需文献. 主要有相邻位置算符(W),(nW),(N),(nN), 句子位置算符(S), 字段算符(F). 3 邻近检索技术(W) 算符(W) 是 with(word) 的缩写, 表示此算符两侧的检索词必须按此前后顺序相邻排列, 词序不可变, 且两词之间不许有其他的词或字母, biological (W) control 相当于检索 bi