1 / 81
文档名称:

搜索引擎及网络信息检索 PPT课件.ppt

格式:ppt   页数:81页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搜索引擎及网络信息检索 PPT课件.ppt

上传人:小马匹匹 2015/11/30 文件大小:0 KB

下载得到文件列表

搜索引擎及网络信息检索 PPT课件.ppt

文档介绍

文档介绍:基于搜索引擎的网络信息检索
主要知识点


(web search engines)
(meat-search engines)



搜索引擎技术原理-搜索引擎概述
搜索引擎(search engine)是互联网上专门用于检索的网站的统称,目前已多达数百上千种,包括通用万维网搜索引擎、通用元搜索引擎和各种专用搜索引擎三大类型。
起源
可追溯至1990年,加拿大蒙特利尔大学学生Alan ,工作原理与现在的搜索引擎很接近。
基本原理
1993年底,人们认识到既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。
发展
1994年,yahoo!和Lycos问世,成功地使搜索引擎的概念深入人心。1995年后,搜索引擎进入了高速发展时期,被誉为仅次于门户网站的互联网第二大核心技术。
(1)搜索器(searcher)
20世纪90年代,“机器人”(robot)在计算机编程者中用于特指某种能以人类无法达到的速度不间断地执行某项任务的软件程序。
由于专门用于检索web信息的“机器人”程序像蜘蛛一样在网络间爬来爬去,因此,作为web搜索器的“机器人”就被称为“网络蜘蛛”。
网络蜘蛛的功能就是在互联网中不断漫游,发现和搜集信息。作为一个计算机程序,搜索器日夜不停地运行,尽可能多,尽可能快地搜集各种类型的新信息,并定期更新已经搜集过的旧信息,以避免出现死链接和无效链接。
搜索引擎技术原理-搜索引擎组成
(2)索引器(indexer)
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,并生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观索引项与文档的语意内容无关,如作者名,url,更新时间等等;内容索引项则是用来反应文档内容的,如关键词及其权重、短语、单字等等。
(3)用户检索界面(interface)
用户检索界面是搜索引擎呈现在用户面前的形象,其作用是接受用户输入的查询、显示查询结果、提供用户相关性反馈。为使用户方便、高效的使用搜索引擎,从搜索引擎中检索到有效、及时的信息,用户检索界面的设计和实现采用人机交互的理论和方法,以充分适应人类的思维****惯。
用户检索界面包括简单界面和高级界面两类。简单界面只提供用户输入查询串的文本框;高级界面提供用户按照检索模型查询的机制。
搜索引擎技术原理-搜索引擎组成
搜索引擎技术原理—搜索引擎的运作
(1)发现并搜集网页信息
搜索引擎通过高性能的“网络蜘蛛”程序(spider)自动地在互联网中搜索信息。
一个典型的网络蜘蛛的工作方式是通过查看一个页面,从中找到与检索内容相关的信息,然后再从该页面的所有链接中继续寻找相关的信息,以此类推,直至穷尽。
“网络蜘蛛”为实现快速浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。
(2)对信息进行提取并建立索引库
索引库的建立关系到用户能否最迅速的找到最准确、最广泛的信息。索引器对“网络蜘蛛”抓来的网页信息极快的建立索引,以保证信息的及时性。
建索引时对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而最大限度地保证搜索出的结果与用户的检索提问相一致。
搜索引擎技术原理—搜索引擎的运作
(3)用户检索利用
搜索引擎根据用户输入的检索词,在索引库中快速检出文档,进行文档与检索的相关度评价,对将要输出的结果进行排序,并将检索结果返回给用户。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜索,如果找到与用户要求内容相符的网站,并采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
这是对前两个过程的检验,检验该搜索引擎能够给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。
搜索引擎技术原理—搜索引擎的运作
(1)简单搜索(simple search)指输入一个单词(关键词)进行搜索,也叫单词搜索。
(2)词组搜索(Phrase Search):指输入两个单词以上的词组(短语),提交搜索引擎检索并反馈结果,也叫短语搜索。现有搜索引擎一般都约定把词组或短语放在引号“”内。如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样得到的结果最精确,这就叫使用双引号进行精确查找。一般说来在网页搜索引擎中,用词组搜索来缩小范围从而找到搜索结果是最好的办法。
搜索引擎技术

最近更新

城市养老院老人主观幸福感现状及团体辅导研究.. 2页

2024年小班教案实用3篇 9页

地基塌陷过程中埋地管线的有限元分析中期报告.. 2页

土体洞室开挖的力学参数敏感性分析的开题报告.. 2页

国有企业高管薪酬体系研究的开题报告 2页

2024年小学语文老师学年工作总结 18页

嗜热四膜虫内Ran结合蛋白1的功能分析的开题报.. 2页

商业银行经营绩效影响因素研究——以工农中建.. 2页

呼和浩特电信IP城域网的优化改造方案的设计的.. 2页

吻合器痔上粘膜环切钉合术术后大出血影响因素.. 2页

吐鲁番地区西瓜断根嫁接技术研究及优质砧木接.. 2页

学生学习计划范文7篇 14页

受托人的善管义务与忠实义务研究的开题报告 2页

反应性湿固化聚氨酯环氧树脂共混体系的研究的.. 2页

双轴数控专用机床可靠性优化设计研究的开题报.. 2页

第六章项目管理 45页

2024年小学生冬天作文 15页

2024年教育整顿心得体会辅警个人5篇 15页

痛风护理查房参考文献 25页

优质课一等奖小学综合实践奇妙的绳结 18页

2023年广东省汕头市澄海区初中毕业生学业模拟.. 10页

最新藏文模拟试题(一) 11页

电力系统稳态分析 第三简单潮流3宋芸ok 86页

中国古代命理学要义讲稿-王德峰 73页

六大纪律个人剖析材料 六项纪律自查自纠报告及.. 8页

赴韶山红色教育培训心得体会 4页

钢铁是怎样炼成的第五章到第八章-课件(PPT讲.. 11页