1 / 68
文档名称:

SEO优化《大型超文本网络搜索引擎的剖析》.doc

格式:doc   大小:327KB   页数:68页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

SEO优化《大型超文本网络搜索引擎的剖析》.doc

上传人:zbfc1172 2019/7/24 文件大小:327 KB

下载得到文件列表

SEO优化《大型超文本网络搜索引擎的剖析》.doc

文档介绍

文档介绍:大规模的超文本网页搜索引擎的分析SergeyBrinand Lawrence puterScienceDepartmentStanford University, Stanford, CA ******@.******@   在本文中我们讨论Google,一个充分利用超文本文件结构进行搜索的大规模搜索引擎的原型。Google可以有效地对网络资源进行爬行搜索和索引,比目前已经存在的系统有更令人满意的搜索结果。该原型的数据库包括2400万页面的全文和之间的链接,可通过。    设计一个搜索引擎是一种具挑战性的任务。 搜索引擎索索引数以亿计的不同类型的网页并每天给出过千万的查询的答案。尽管大型搜索引擎对于网站非常重要,但是已完成的、对于大型搜索引擎的学术上的研究却很少。 此外,由于技术上的突飞猛进和网页的急剧增加,在当前,创建一个搜索引擎和三年前已不可同日而语。本文提供了一种深入的描述,与 Web 增殖快速进展今日创建 Web 搜索引擎是三年前很大不同。本文提供了到目前为止,对于我们大型的网页所搜引擎的深入的描述,这是第一个这样详细的公共描述。除了如何把传统的搜索技术扩展到前所未有的海量数据,还有新的技术挑战涉及到了使用超文本中存在的其他附加信息产生更好的搜索结果。本文解决这样一个问题,如何建立一个可以利用超文本中存在的其他附加信息的实用的大型系统,同时我们也研究一下如何有效处理任何人都能发布他们想发布的包含任何信息的大量自由链接的问题。关键字: 互联网,搜索引擎,文献检索,PageRank,(注: 本文由两个版本--较长的完整版本和一个较短的印刷的版本。 完整版本提供在网络上和会议的CD-ROM上)。 Web 给信息检索带来了新的挑战。Web上的信息量快速增长,同时不断有毫无经验的新用户来体验Web这门艺术。人们喜欢用超级链接来网上冲浪,通常都以象 Yahoo这样重要的网页或搜索引擎开始。人工维护的网站列表能有效的覆盖受欢迎的流行的站点,但是它具有主观性,建立和维护的代价高,升级慢,不能包括所有深奥的主题。基于关键词的自动搜索引擎通常返回太多的低质量的匹配。使问题更遭的是,一些广告为了赢得人们的关注想方设法误导自动搜索引擎。我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文本结构,提供高质量的查询结果,我们的系统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎较好的符合。—升级换代:1994-2000搜索引擎技术不得不快速升级跟上成倍增长的网站数量。1994年,第一个Web搜索引擎,WorldWideWebWorm(W网站可访问文档的索引。到1994年11月,顶级的搜索引擎声称可以检索到2万 (WebCrawler)100万个网络文件(来自搜索引擎监视)。可以预见到2000年,可检索到的网页将超过10亿。同时,搜索引擎的访问量也会以惊人的速度增长。在1997年的三 四月份,WorldWideWebWorm 平均每天收到1500个查询。在1997 年11月,Altavista 声称它每天要处理大约20’百万个查询。随着网络用户的增长,可以预见到到2000年,自动搜索引擎每天将处理上亿个查询。我们系统的设计目标要解决许多问题,包括质量和可升级性,引入升级搜索引擎技术,把它升级到如此大量的数据上。:升级与网络建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。抓网页技术必须足够快并且保持是最新的版本。存储空间必须高效的存储索引和文档。索引系统必须能够高效地处理上百亿GB的数据。处理查询必须快,达到每秒能处理成百上千个查询。随着Web的不断增长,这些任务变得越来越艰巨。然而硬件的性能和成本也在快速增长,可以部分抵消这些困难。然而,还有几个值得例外,如磁盘的寻道时间,操作系统的效率。在设计Google的过程中,我们既考虑了网络的增长速度,又考虑了技术的更新。Google的设计能够很好的升级处理超大量数据集。它能够高效地使用存储空间来存储索引。优化的数据结构能够快速有效地存取()。进一步,我们希望,相对于所抓取的文本文件和HTML网页的数量而言,存储和建立索引的代价尽可能的小(请参阅附录B)。对于象Google这样的集中式系统,采取这些措施得到了良好的系统可升级性。   改进搜索质量。我们的主要目标是提高Web搜索引擎的质量。1994 年,有人认为建立全搜索索引就有可能很容易找到任何东西。根据BestoftheWeb1994--Navigator