1 / 72
文档名称:

第三章 搜索引擎(search engines).ppt

格式:ppt   页数:72
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第三章 搜索引擎(search engines).ppt

上传人:中国课件站 2011/10/11 文件大小:0 KB

下载得到文件列表

第三章 搜索引擎(search engines).ppt

文档介绍

文档介绍:打开网络知识宝库钥匙
网络信息检索与利用
湖州师院图书馆
主讲人:吕秀云
第三章搜索引擎(search engines)
搜索引擎的含义及类型(p36)
搜索引擎的工作原理
搜索引擎的检索功能
常用搜索引擎及其使用
西文常用搜索引擎及其使用
中文常用搜索引擎及其使用
专门信息检索工具
第三章网络搜索引擎(search engines)
搜索引擎的含义及类型(p37)
搜索引擎含义: 是对网上的信息资源进行搜集整理、然后提供用户查询的系统,它包括:信息搜集、信息整理、用户检索(查询) 。搜索引擎是一种利用网络自动搜索技术,对网络信息资源进行标引、组织、检索网络信息资源的检索工具。
类型:
1)按搜索引擎的工作原理分:
(1)纯技术型的全文检索搜索引擎,如:google、
AltaVista等;
(2)分类目录型搜索引擎,如:yahoo等。
2)按搜索引擎的操作方式分:
①独立搜索引擎
②多元搜索引擎
③网络搜索软件
多元搜索引擎与源搜索引擎的主要区别在于:并不像全文搜索引擎那样拥有自己的索引数据库,而是当用户提交搜索申请时,通过对多个独立搜索引擎的整合和调用,然后按照多元搜索引擎自己设定的规则将搜索结果进行取舍和排序并反馈给用户。
美国专业搜索引擎咨询网站评出的2003年最佳多元搜索引擎如下:
多元搜索引擎:是将多个独立的搜索引擎集成在一起,并提供一个统一的检索界面,并且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。
(1)Dogpile()
(2)Vivisimo()
搜索引擎的工作原理:
网络自动索引软件称为Robots,Spiders或Worm等,实际上它们都是一种自动跟踪、浏览网页并进行索引的智能软件。国内一般译为“网络机器人”,此类软件一般由下列几部分构成:采集器(Gartherer)、建库器(Broker)、索引查询器(Index/Search Subsystem)、备份复制器(Replicator)、目标缓存器(Object Cache)、目标管理器(Object System)等。其工作原理主要概括为以下过程:
(3)()
1)信息的采集和存储:搜索引擎一般采用自动方式收集和存储网上信息资源,即运用“网络机器人”自动运行的软件,追寻万维网上的链接行进,找到web页并将它们收集和发现到的web页面信息经网络传输,存入到搜索引擎的临时数据库中。
2)信息索引的建立:搜索引擎负责对收集到的网页信息进行分析,从中提取有检索价值的信息内容——网页中的关键词,并对关键词进行数值计算。该模块也就是建立索引查询系统,它是该数据库系统建立的配套子系统,决定索引布尔逻辑操作、表达式匹配,结构化与非结构化文件处理、词语匹配、匹配相关性排序等。建立信息索引就是创建文挡信息的特征记录(题名、责任者、关键词、期刊名称等),使用户能够快速地检索到所需信息。
建立索引需要进行以下处理:yahoo
(1)信息语词切分和语词词法分析;
(2)进行词性标注及相关的自然语言处理;
(3)建立检索工具索引(题名、责任者、主题、刊名等索引)
3)检索界面的建立:搜索引擎检索界面接受用户提交的查询请求(查询内容及逻辑关系),搜索引擎将根据用户所输入的关键词在其索引中查找,并寻找出匹配的web页地址。检索界面是连接用户与搜索引擎、相关web页地址的中介,需要有较强的易用性。如:Google 的检索界面。
4)检索结果的相关性处理:搜索引擎可按文件相关度进行排序,最相关的文件一般排在前面,以便于用户快速查询到相关信息。如“百度”检索网页中“ google简介”
搜索引擎确定相关性的方法:
概率方法是根据关键词在文中出现的频率多少来判定文件的相关性。
位置方法是根据关键词在文中出现的位置来判定文件的相关性。关键词出现的越靠前,文件的相关度就越高。
摘要方法是指搜索引擎自动地为每个文件生成一份摘要,让用户自己选择、判断结果的相关性。
分类或聚类方法是指搜索引擎采用分类或聚类技术,自动把查询结果归入到不同的类别中。(几种方法并用)
如:利用“yahoo”点击“知识”
获取到知识分类: