1 / 117
文档名称:

搜索引擎2H.ppt

格式:ppt   页数:117页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搜索引擎2H.ppt

上传人:1875892**** 2016/7/29 文件大小:0 KB

下载得到文件列表

搜索引擎2H.ppt

相关文档

文档介绍

文档介绍:1搜索引擎刘雁书副教授中南大学湘雅医学院信息检索教研室 2 ?太初,Google 问世之前,大地一片黑暗. ?《世界百科全书》,我们翻阅《期刊文献书目索引》里面密密麻麻的文字。?我们听信捕风捉影的传言,以及所谓权威专家信口雌黄。我们瞎猜,我们揣度,最后,我们放弃, 自甘堕落于无知之境。?现在, Google 世纪大放光明,我们才晓得前 Google 时代的世界是如何幽暗隐晦。在遥远的未来,历史学家将通称 Google 现身前的时期为“黑暗时代”。?__ 乔尔艾肯巴克, 《华盛顿邮报》 3大大纲纲一、搜索引擎概述二、国内外主流搜索引擎三、搜索引擎综合利用 4一、搜索引擎概述一、搜索引擎概述(一)定义(二)原理(三)分类 5一、搜索引擎概述一、搜索引擎概述?(一)定义: search engine :是目前收录与查找网络信息的主要工具。搜索引擎广泛收集网页信息,对收集信息进行提取和组织建立索引库,并提供一定的检索方式与语法供用户查询。 6 ?广义的搜索引擎?泛指网络上提供信息检索服务的工具和系统。又称为网络检索工具。类似于印刷时代的检索工具。?狭义的搜索引擎?主要指利用网络自动搜索技术软件( robot), 对互联网(主要是 WWW )网络资源进行收集、组织并提供检索服务的一类信息服务系统 7(二)搜索引擎原理(独立型) (二)搜索引擎原理(独立型) ? 1. 收集网络信息:?利用网络自动搜索软件 Spider 或 Robot, 以一个已知的 URL 清单为向导,利用网页之间的链接关系逐级爬行,定期扫描与搜索网页信息,; 8 ? 2. 建立索引库:?由分析索引系统程序( Indexer) 对收集回来的网页进行分析,提取相关网页信息(包括网页所在 URL 、编码类型、页面包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关算法进行大量复杂计算,得到每一个网页针对页面内容中超链中每一个关键词的相关度(或重要性),然后利用这些相关信息建立网页索引数据库; 9 ? 3. 用户查询索引库: ?当用户输入关键词搜索后,由搜索系统程度从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序, 相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来,返回给用户。 10(三)、搜索引擎分类(三)、搜索引擎分类?按检索机制分?按收录范围分?按语种分?搜索引擎选择