1 / 5
文档名称:

Google搜索引擎的工作原理.doc

格式:doc   大小:20KB   页数:5页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Google搜索引擎的工作原理.doc

上传人:mh900965 2018/6/28 文件大小:20 KB

下载得到文件列表

Google搜索引擎的工作原理.doc

相关文档

文档介绍

文档介绍:Google搜索引擎的工作原理
2010-07-05 08:41 推荐: P迪 浏览: 24,665 views 我要评论(6条) 字号: 大 中 小
分享到:新浪微博腾讯微博QQ空间Gmail邮箱豆瓣网搜狐微博开心网
摘要: 呈现给我们一幅由Jess Bachman(工作)精心描绘的示意图,这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在那不到1秒的响应时间内所进行的处理。这是我刚付印的最新示意图,这张流程...
呈现给我们一幅由Jess Bachman(工作)精心描绘的示意图,这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在那不到1秒的响应时间内所进行的处理。
这是我刚付印的最新示意图,这张流程图演示了在你点击Google搜索按钮后,在Google返回查询结果前那一眨眼的功夫里,Google是如何处理你的搜索请求的?这可是搜索巨人Google年赢利额高达200亿美元的杀手级应用,首屈一指的商业和技术神话,大家肯定都想知道Google这棵摇钱树背后的秘密。
一、Google官方对其搜索技术的叙述
我们搜索技术的后端软件会在服务器侧触发一系列执行时间不到1秒的并行计算,Google问世前的传统搜索引擎的搜索结果严重依赖于关键词在页面上出现的频度,我们使用了200多个指标信号(其中包括我们拥有专利的PageRank页面等级加权算法)用来检查万维网的链接结构(佩奇和布林最初的想法是把万维网的链接结构用图论的有向无环图来建模)并决定网页的重要程度,我们假定一个网页的重要程度取决于别的页面对它的引用,就像学术论文中的引用指数一样,重要的论文总是会被很多其他论文引用。然后我们再根据搜索条件进行超文本匹配分析(对bot抓取的页面内容进行关键词倒排索引检索)确定跟搜索请求最相关的网页。综合最重要的网页和跟搜索请求最相关的网页两个方面,我们就能按重要程度和用户搜索请求相关程度把查询结果排序后呈现给我们的用户。
二、数据中心:Google用来索引世界的塔
Google的数据中心高度机密,我们能了解到的不多:
1. 在美国本土有19个以上的数据中心,其余17个数据中心分布在美国以外的世界各地。
2. 每个数据中心有50万平方英尺那么大,建造一个数据中心要花费约6亿美元。
3. Google数据中心是世界上最高效的设施之一,而且也非常环保,几乎没有碳排放。
4. 数据中心使用50到100兆瓦的电力,由于需要冷却,通常建在便于用水的地方。
5. Google服务器安置在一个一组容得下1160台服务器的有房子那么大的标准集装箱容器中。
三、处理流程:
1. 你写博客、或在***上推微博、更新站点等诸如此类往web上添加内容的操作
2. Google爬虫(一种作为搜索引擎构件的智能代理程序)抓取你网页的title和description、keyword等内容
(1) Google bots程序沿链接路径周游万维网,如果没有http路径到你的站点,你的站点将不会被索引
(2) ,Google bots程序将不会抓取你的网页
(3) 如果链接到你站点的html链接上有nofollow标签,Google bots将不会从这些链接路径周游到你的站点。