文档介绍:Google搜索引擎的工作原理2010-07-050&41推荐:PJ4浏览:24,665views我要评论(6条)字号:左出尘分亨到:新浪微博腾讯微博QQ空间Gmail邮箱豆瓣网搜狐微博开心网摘要:呈现给我们一幅由JessBachman(工作)精心描绘的示意图,这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在那不到1秒的响应时间内所进行的处理。这是我刚付印的最新示意图,这张流程…呈现给我们一幅由JessBachman(T作)精心描绘的示意图,这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在那不到1秒的响应时间内所进行的处理。这是我刚付印的最新示意图,这张流程图演示了在你点击Google搜索按钮后,在Google返回查询结果前那一眨眼的功夫里,Google是如何处理你的搜索请求的?这可是搜索巨人Google年赢利额高达200亿美元的杀手级应用,首屈一指的商业和技术神话,大家肯定都想知道Google这棵摇钱树背后的秘密。一、Google官方对其搜索技术的叙述我们搜索技术的后端软件会在服务器侧触发一系列执行时间不到1秒的并行计算,Google问世前的传统搜索引擎的搜索结果严重依赖于关键词在页面上出现的频度,我们使用了200多个指标信号(其屮包括我们拥有专利的PagcRank页面等级加权算法)用来检查万维网的链接结构(佩奇和布林最初的想法是把万维网的链接结构用图论的有向无环图来建模)并决定网页的重要程度,我们假定一个网页的重要程度取决于别的页面对它的引用,就像学术论文屮的引用指数一样,重要的论文总是会被很多其他论文引用。然后我们再根据搜索条件进行超文本匹配分析(对bot抓取的页面内容进行关键词倒排索引检索)确定跟搜索请求最相关的网页。综合最重要的网页和跟搜索请求最相关的网页两个方面,我们就能按重要程度和用户搜索请求相关程度把查询结果排序后呈现给我们的用户。二、 数据中心:Google用来索引世界的塔Google的数据中心高度机密,我们能了解到的不多:在美国本土有19个以上的数据中心,其余17个数据中心分布在美国以外的世界各地。每个数据中心有50万平方英尺那么大,建造一个数据中心要花费约6亿美元。Google数据中心是世界上最高效的设施之一,而且也非常环保,儿乎没有碳排放。数据中心使用50到100兆瓦的电力,由于需要冷却,通常建在便于用水的地方。Google服务器安置在一个一组容得下1160台服务器的有房子那么大的标准集装箱容器中。三、 处理流程:你写博客、或在***±推微博、更新站点等诸如此类往web上添加内容的操作Google爬虫(一种作为搜索引擎构件的智能代理程序)抓取你网页的title和description、keyword等内容Googlebots程序沿链接路径周游万维网,如果没有http路径到你的站点,你的站点将不会被索引如果你在robots,txt中设置不许索引,Googlebots程序将不会抓取你的网页如果链接到你站点的html链接上有nofollow标签,Googlebots将不会从这些链接路径周游到你的站点。Google也能通过blog软件或xml站点地图找到你的网站从PageRank越高的网站链接到你的网站的链接越多,你的网站的PageRank就越高。Google爬虫将周游所有未标注