文档介绍:摘要
快速有效地搜集更多的网页,是其提供高质量服务的基础。采用分布式搜集策略可以很好完成这一任务。但由于网上信息分布的不规律性和广域性。要应用可靠的组播通讯(Reliable Multicast)技术来实现搜集系统的负载平衡和动态调度性,即运行过程中添加和删除主控于分布式的Web搜集系统中。
本文基于“天网”。它借鉴了Cornell大学的ISIS系统,实现了分布式Web搜集系统的组视图维护和可靠的组播通讯。本文论述的系统结构和方法,将用于“天网”,达到提高系统能力,改善系统的可扩展性的目的。
关键词
可靠的组播传送、组视图、分布式、动态可配置、搜索引擎、万维网
引言
背景简介
WWW简介
万维网(Work Wide Web),简称访问遍布在因特网上数以万计的机器上的链接文件。在短短的五年之内,它从一种发布高能物理数据的方式演变为如今数百万人脑中的“因特网”。它之所以如此流行是由于它有一个丰富多彩的界面,初学者很容易使用,并且还提供了大量的信息资源,几乎涉及人们所能想象的所有主题,如从土著人到动物学。
n Center for Nuclear Research)最先开发的一个分布式超媒体信息查询系统。-Lee于1989年3月倡导下开发出来的, Tim Berners-Lee是牛津大学的毕业生,从事过文字处理及实时通信方面的研究。他开发科学家可以相互合作,交流信息。Tim Berners-Lee采用超文本(hypertext)技术将许多信息资源连接成一个信息网,信息网由结点和超链接组成。的连接关系是相互交叉的,一个结点可以以各种方式与另外的结点相连接。超文本的优点是用户可以通过传递一个超链接得到与当前结点相关的其它结点的信息。超媒体是一个与超文本类似的概念,在超媒体中,超链接的两端可以是文本结点,也可以是图像,语音等各种媒体的数据。第一个原型(基于文本)于18个月后运行。1991年12月在德克萨斯州的San Antonio 91超文本会议上进行了一次演示,并于1993年2月,随着第一个图形界面Mosaic的发布而达到了其发展的高峰。
在1993年下半年,上的第一大应用服务。到1997年12月,根据NEC研究院在《科学》杂志上发布的数据,网上大约有3亿2000万网页。
在最近两年里,不可少的组成部分,并且开始走进千家万户。根据NEC研究院截止到2000年2月,其中公开提供个;共有不重复。
搜索引擎简介
越时间和空间的界限来共享大量的信息。但是,面对如此大量的信息,我们同时也开始感到无所适从。太多的信息使我们很难迅速定位到我们真正需要的部分;由于和规划,仅靠超链(Hyperlink)茫无目的地漫游则会浪费大量的时间,而且很可能徒劳无功。因此,人们迫切需要有效的信息发现工具来为他们在。
目前,一个有效的途径是建立搜索引擎。搜索引擎系统通过程序自动地从网上搜集和分析网页,建立索引,为用户服务。这类系统的优点是涵盖的网页数量巨大,但搜索的准确率相对比较低,其典型代表是Google。
搜索引擎出现于1994年,在短短的7年时间里,经历了天翻覆地的变化。1994年,World Wide Web Worm (Web),作为最早出现的搜索引擎之一,可以索引110,000网页。1994年3月、4月,月,当时的顶级搜索引擎WebCrawler声称可以索引1亿网页,AltaVista声称每天可以收到2千万条查询。进入2000年搜索引擎开始以尝试索引“整个Web”为标志。几个主流的搜索引擎,如Google ,Inktomi, FAST,,都不断扩展自己的搜集能力,企图将整个Web上的数据都搜集到,建立索引并为用户提供服务。2000年12月,Google搜索引擎可以索引1,326,920,000网页,Inktomi存储超过10亿的网页,每天可以收到亿万计的查询。随着搜索引擎的发展,逐渐出现了自动分类技术代替人工分类。2000年3月,Google宣布研制出先进的目录搜索技术,scape通讯公司合作推出更加快捷、全面的目录搜索引擎服务。Northern Light和Inktomi的Directory Engine都在一定程度上使用了该技术。
搜索引擎面世后,虽然抱怨不断,但它迅速成为人们网上搜索的有效工具。根据统计,大约85%的用户使用搜索引擎去定位他们需要的信息[5];并且,几个著名的搜索引擎一直都稳定的处于全球访问量最大的10个网站之列。
国外搜索引擎虽然起步较早,功能全面,性能良好,但是它们的共同缺点是都不能很好地支持中文信息的发现和查询。虽然AltaVista、Yahoo等搜索引擎在1998年上半年宣布支持