1 / 23
文档名称:

Google搜索引擎原理.docx

格式:docx   大小:45KB   页数:23页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Google搜索引擎原理.docx

上传人:63229029 2017/11/8 文件大小:45 KB

下载得到文件列表

Google搜索引擎原理.docx

相关文档

文档介绍

文档介绍:Google搜索引擎原理
这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24'000'000个网页。我们可以从/ 下载。
设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中, 尽管大型搜索引擎非常重要,但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。
本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题,还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。
本文将解决这个问题,描述如何运用超文本中的附加信息,建立一个大型实用系统。任何人都可以在网上随意发布信息,如何有效地处理这些无组织的超文本集合,也是本文要关注的问题。
关键词 World Wide Web,搜索引擎,信息检索,PageRank, Google
1 绪论
Web给信息检索带来了新的挑战。Web上的信息量快速增长,同时不断有毫无经验的新用户来体验Web这门艺术。人们喜欢用超级链接来网上冲浪,通常都以象Yahoo这样重要的网页或搜索引擎开始。大家认为List(目录)有效地包含了大家感兴趣的主题,但是它具有主观性,建立和维护的代价高,升级慢,不能包括所有深奥的主题。基于关键词的自动搜索引擎通常返回太多的低质量的匹配。使问题更遭的是,一些广告为了赢得人们的关注想方设法误导自动搜索引擎。我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文
本结构,大大提高了查询质量。我们的系统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎不谋而合。
—升级换代(scaling up):
1994-2000 搜索引擎技术不得不快速升级(scale dramatically)跟上成倍增长的web数量。
1994年,第一个Web搜索引擎,World Wide Web Worm(WWeb的文件。
到1994年11月,顶级的搜索引擎声称可以检索到2‘000'000(WebCrawler)至100‘000'000个网络文件(来自 Search Engine Watch)。
可以预见到2000年,可检索到的网页将超过1‘000'000‘000。同时,搜索引擎的访问量也会以惊人的速度增长。
在1997年的三四月份,World Wide Web Worm 平均每天收到1500个查询。
在1997年11月,Altavista 声称它每天要处理大约20'000'000个查询。随着网络用户的增长.
到2000年,自动搜索引擎每天将处理上亿个查询。我们系统的设计目标要解决许多问题,包括质量和可升级性,引入升级搜索引擎技术(scaling search engine technology),把它升级到如此大量的数据上。
Google:
跟上Web的步伐(Scaling with the Web)建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。抓网页技术必须足够快,才能跟上网页变化的速度(keep them up to date)。存储索引和文档的空间必须足够大。索引系统必须能够有效地处理上千亿的数据。处理查询必须快,达到每秒能处理成百上千个查询(hundreds to thousands per second.)。随着Web的不断增长,这些任务变得越来越艰巨。然而硬件的执行效率和成本也在快速增长,可以部分抵消这些困难。还有几个值得注意的因素,如磁盘的寻道时间(disk seek time),操作系统的效率(operating system robustness)。在设计Google的过程中,我们
既考虑了Web的增长速度,又考虑了技术的更新。Google的设计能够很好的升级处理海量数据集。它能够有效地利用存储空间来存储索引。优化的数据结构能够快速有效地存取()。进一步,我们希望,相对于所抓取的文本文件和HTML网页的数量而言,存储和建立索引的代价尽可能的小(参考附录B)。对于象Google这样的集中式系统,采取这些措施得到了令人满意的系统可升级性(scaling properties)。
1. 3设计目标

最近更新

河北省保定市事业单位招聘考试(职业能力倾向.. 150页

河北省秦皇岛市选调生考试(行政职业能力测验.. 147页

辽宁省沈阳市事业单位招聘考试(职业能力倾向.. 148页

冷沉淀法在临床血清酶学检测中的应用优势 32页

冷沉淀在肺癌患者咳痰中的应用 27页

2024年足球知识题库及完整答案【历年真题】 12页

冠脉搭桥手术后的家庭护理指南 27页

县乡教师选调进城考试《教育法律法规》题库完.. 131页

冠状动脉搭桥术后疼痛处理方法 31页

农业银行网点6S管理手册的强化内外联动 29页

公司培训管理设计方案的重要性与价值 27页

全科医学概论研究急诊医学和创伤抢救 27页

全科医学培养的实践就业支持 23页

儿童脱臼护理进修报告 26页

儿童先天性脊柱侧凸护理进修报告 27页

住院医师规范化培训年度临床决策能力总结 26页

2024年足球知识题库附完整答案(全优) 12页

县乡教师选调考试《教师职业道德》题库及答案.. 42页

县乡教师选调进城考试《教育心理学》题库附参.. 122页

科普知识竞赛题库100道及参考答案【综合题】 19页

职业教育法考试题库精品【夺分金卷】 26页

优化护理工作流程的改进方案 38页

伍德灯在神经科手术中的临床应用质量探讨 22页

派对布置方案 6页

江苏省高考方案 5页

武汉应急方案 7页

树木修剪施工方案 8页

普通高中课程方案 7页

旅游形象策划方案 6页

方案介绍图绿地 6页