1 / 3
文档名称:

计算机网络毕业论文搜索引擎中的网络蜘蛛技术探析.docx

格式:docx   大小:37KB   页数:3页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

计算机网络毕业论文搜索引擎中的网络蜘蛛技术探析.docx

上传人:gjh0927 2020/7/10 文件大小:37 KB

下载得到文件列表

计算机网络毕业论文搜索引擎中的网络蜘蛛技术探析.docx

相关文档

文档介绍

文档介绍:搜索引擎中的网络蜘蛛技术探析摘要:搜索引擎技术可以从海量的网络信息中获得我们想要的信息,随着网络信息资源的急剧增长其作用越来越显著。本文介绍了搜索引擎技术中的网路蜘蛛,分析了其对文件的处理方法,研究了其搜索与更新策略。关键词:搜索引擎;网路蜘蛛;更新策略一网络蜘蛛工作原理网络蜘蛛,即搜索引擎机器人程序。将整个互联网想象成一张很大的蜘蛛网,而搜索引擎机器人程序通过链接来抓取信息的过程就像是蜘蛛在这张网上爬来爬去一样。网络蜘蛛是通过链接地址来寻找网页的。它由一个启始链接开始抓取网页内容,同时也采集网页上的链接,并将这些链接作为它下一步抓取的链接地址,如此循环,直到达到某个停止条件后才会停止。停止条件的设定通常是以时间或是数量为依据,有时也会以链接的层数来限制网络蜘蛛的运行。二网路蜘蛛与网站的交互问题网络蜘蛛访问一个网站,,这个文件如果存在的话通常会放在网站的根目录下。它是专门用来同网络蜘蛛交互用的专用文件。它会将网站管理者的意思传递给访问它的网络蜘蛛,告诉网站同意或是禁止某些或是所有蜘蛛访问网站的某个特定的网页或者目录。它的结构和语法都比较简单,一般网络蜘蛛都可以很容易的理解网站的意思。正规的搜索引擎通过读取这个文件可以很方便的理解网站的意思并按照网站管理者的意思来进行友好的访问。但是这个仅仅只是网络的一个约定协议而以,并没有对其制定相应的强迫手段,更没有提出相应的惩罚,所以这个约定对于遵守者是有效的,但对于那些不懂生规矩的蜘蛛是一点作用都没有。在网页中的Meta字段同样也可以放入和上面文件相同效用的内容,它可以告诉网络蜘蛛这个网页对于网站管理者来说,是需要被收录还是仅仅被浏览或是根本就不允许蜘蛛访问。这个字段通常会放在文档的头部,通过读取这个字段,蜘蛛可以在没有读取到全部文档的情况下就了解文档的相关信息,可以避免将无效的网页取下来后又将其废弃而造成无谓的浪费。同样这个规则也是没有特殊限制的,遵守程度完全靠网络蜘蛛的自觉性和网站的设计方式来决定。为了让网站被搜索引擎搜索到,尤其是那些网站所有者希望