1 / 4
文档名称:

Google搜索引擎工作原理简介.doc

格式:doc   大小:22KB   页数:4页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Google搜索引擎工作原理简介.doc

上传人:1314042**** 2021/2/28 文件大小:22 KB

下载得到文件列表

Google搜索引擎工作原理简介.doc

文档介绍

文档介绍:Google采用了两个重要的特性,因此而获取了准确的查询结果:第一,Google利用网页的链接结构计算出每个网页的等级排名,这就是所谓的PageRank;第二,Google利用了链接提供的信息进一步改善搜索结果。
  PageRank的计算:
  PageRank的基本思路是:如果一个网也被其他网页多次指向,这就说明本网页比较重要或者质量较高。除了考虑网页链接数量之外,Google还要参考链接网页本身的级别,以及这个网页有多少正向链接到其它网页。当然“重要”的网页的链接就会有更高的权重。PageRank的简化计算公式:
  PR(A) = (1-d) + d (PR(T1)/C(T1) +…+ PR(Tn)/C(Tn))? PR(A) :网页A页的PageRank值;? PR(Ti) :链接到A页的网页Ti的PageRank值;? C(Ti) :网页Ti的出站链接数量;? d :阻尼系数,0
  PageRank可以通过结合链接权重的向量矩阵的提归计算而获得(关于PageRank的深入分析,我在方便的时候会另外写一篇文章介绍)。
  随机冲浪模型:
  PageRank可以被理解为用户的一个行为模型。我们假设一个随机的网站浏览者”random surfer”给以一个随机的网页,他会继续点击网页中的链接直到他厌倦了而从新开始浏览一个新的随机的网页。PageRank可以理解为某个网页被随机访问的概率。而阻尼系数d则是随机访客不顺着网页的链接继续浏览下去,而从新开始一个随机冲浪的概率。对有一些网页,可能会人为的改变它的阻尼系数,这样就可以阻止一些***网站误导Google而获得较高的PageRank的可能性。
  你也可以这样自觉理解PageRank:一个高PageRank的网页是那些有很多网页指向的网页,或者是有一些重要网页指向的网页。Google假定,如果一个网页被很多其他不同的网页引用,就说明这个网也值得一看。另外,如果一个网页为yahoo这样的网站指向,也通常值得一看。
  链接描述文本(anchor text)
  Google对连接描述文字进行了特殊的处理。大多数的搜索引擎都是把链接文本和它所在的页面相关联,而Google还把链接文本和它指向的文档相关联。这样做的原因是链接描述往往提供了一个对被指向的网页更准确地描述。
  除了PageRank和链接描述以外,Google还采用了一些其它的特性:首先,Google记录了所有关键字的位置信息(hits),它在搜索中充分的使用了关键字的相关性分析。其次,Google记录了一些视觉信息,比如字体的大小等等。大字以及加粗的字体比网页中的其它字体有更高的权重。
  另外,Google认为,不是直接呈现给访问者的的文本信息都可能被烂用,并用以误导搜索引擎。所以Google对metadata的文本给以较小的重视。
  系统结构分析:
  Google的整体系统结构如图所示:
  先由URLserver发送一系列的URL地址让网站爬虫crawlers去采集。网页采集后交给存储服务器Store server。存储服务器压缩网页内容后存放到信息仓库repository。所有的新的网页都被赋予一个docID。索引功能由索引器