1 / 50
文档名称:

网络资源及搜索引擎.pdf

格式:pdf   大小:1,856KB   页数:50页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网络资源及搜索引擎.pdf

上传人:977562398 2019/10/31 文件大小:1.81 MB

下载得到文件列表

网络资源及搜索引擎.pdf

文档介绍

文档介绍::1)数量巨大,增长迅速。2)内容丰富,形式多样。3)信息发布自由,信息资源良莠不齐。4)传播范围广泛。6)网络信息具有一定的交互性。:(SearchEngine)从广义上讲是用来对网络信息资源管理和检索的一系列软件,网上查找信息的工具或系统组成:序(如spider、crawler、robot),索引数据库(包括成千上万甚至上亿个网页),检索程序(用来处理用户的检索请求):工作原理:简单地说主要包括以下几个步骤:、:::根据组织信息的方式类型特点典型目录式分类搜将信息进行归类,适合那些希望了解某Yahoo、Sohu、索引擎一方面信息但又没有明确目的的用户;OpenDirectory查准率较高,查全率较低全文搜索引擎能够对网页中的每个单字进行搜索;搜Google、百度索范围较广,提供的信息多,但缺乏清晰的层次结构,重复链接比较多智能搜索引擎建立了知识库,引擎根据已有的知识库FSA、Eloise、来理解检索词的意义并以此产生联想,FAQFinder(专从而找出相关的网站或网页用搜索引擎):类型特点典型独立搜索引擎有自已的数据库,搜索Yahoo、sohu、新浪、时只检索自己的数据网易等库,并作出相应的反馈元搜索引擎调用独立搜索引擎的引C4、Dogpile、(Metasearch擎MetaFind、Engines)SavvySearch、:抓取原则:深度优先和广度优先:深度优先——从起始页的某一个链接开始,一直深入下去(如google);广度优先——从起始页的全部链接着手,再从另一个网页的链接开始免费与付费:有的网站通过付费来保证其被搜索引擎收录定期搜索与提交网站:定期搜索——搜索引擎派搜索程序定期对网页进行搜索(如google每隔30天);网站拥有者主动向搜索引擎提交网址,在一定时间内(2天到一个月不等),搜索引擎扫描网站,:输出结果排序原则:检索词出现的位置和词频(位置词频法)链接流行度(网页被其他网页或网站引用或链接的次数,被引用或链接频率越高,说明网页越重要,便排在前面)付费:竞价机制引入搜索引擎,如Baidu,根据网站或网页提供者付费的多少,