文档介绍:第五章、网络搜索引擎及其检索
天津职业大学经管系张海燕
一、网络搜索引擎的类型、原理、特性及其新发展
的发展史中,为解决蕴藏在网络中丰富而不断增加的信息资源的检索问题,先后产生过查询 FTP服务器中特定文件的 Archie检索服务、基于菜单的 Gopher检索服务、基于关键词的 Wais文档检索服务以及基于超文本的搜索引擎(Search Engine)检索服务。
相对于前几种检索工具,伴随着 频、声像等多媒体检索、软件下载、新闻组查询、电子邮件申请等一系列网络服务而成为当今网络检索工具的主流。
1994年4月,Web上的第一个搜索引擎——WebCrawler问世,至今,上有记录可查的搜索引擎数量已达到2500个左右,其中既有大型综合性搜索引擎,也有在一个特定领域内发挥作用的专业性搜索引擎,它们已成为人们检索网络信息资源必不可少的工具。
1、搜索引擎的类型
一般说来,目前网络搜索引擎可以按照索引方式、检索特性和检索内容分别划分为不同的类型。
按索引方式划分,可以将搜索引擎划分为目录式和主题式两种。从严格意义上讲,只有主题式搜索引擎才可称为真正意义上的搜索引擎,但如今人们已习惯将这两类查询工具都称为搜索引擎。
重点记忆
目录式和主题式搜索引擎关键的区别在于对网络信息索引方式的不同。
目录式搜索引擎主要采用人工或机器搜索Web信息,然后依靠专业人员对搜集到的信息进行甄别、筛选、分类、加工而建立起以分类导航或分类摘要提供例览查询为目的的搜索引擎。目录式搜索引擎对网上信息的分类清晰而明确,条理性强,类目设置基本能反映当前人们关注的主要问题。
(雅虎中国 http://cn./)商业与经济*就业*商务*电子
这些经由信息管理专家编制的分类条目,凝聚了人类的知识和智慧,因此通过目录式搜索引擎检索到的信息其相关度和精确度往往比较高。
然而,由于人工分类成本高,费时费力,标引速度慢,使得采集信息的速度远远跟不上网络信息资源的增长速度,这就造成了目录式搜索引擎所建立的数据库规模较小,某些类目下收集的信息数量有限且难以随时更新等缺陷。
目前,代表性的目录式搜索引擎主要有 Yahoo等。
重点记忆
与目录式搜索引擎主要依靠人工编辑信息的工作原理不同,主题搜索引擎(关键词搜索引擎)主要由网络搜索软件(robot、spider、worm等)自动定期遍历各类网站,自动收集网页信息进行索引建库并提供全文检索。
主题搜索引擎利用最新网络信息发现技术,不仅可以快速地收集分布于全球各网站的信息,还可以及时发现新的网站网页内容并剔除已废弃的网站网页,及时更新、完善自身数据库,因此主题搜索引擎的数据库规模可以做得相当庞大,数据的时效性也可以得到有力的保障,这就大大提高了用户对网络信息的查全率、及时性及有效性。
主题式搜索引擎就是提供用户以主题关键词的方式进行全文检索的搜索引擎,类似于传统信息检索的特性检索模式,适合于那些对所查信息专指度要求较高、能够明确表述自身信息需求概念且要求快速完成检索的用户使用。
目前网上代表性的主题式搜索引擎有Google、Northern Light等。
由于目录式搜索引擎和主题式搜索引擎各自所具有的无法替代的优势,目前许多搜索引擎都在以提供一种检索方式为主的基础上兼顾了另一种检索方式,或以主题(关键词)检索为主,配以分类目录浏览检索,或以分类目录浏览检索为主,配以主题(关键词)检索,以便同时满足人们不同的检索需要和习惯。这已成了当前搜索引擎发展的一大趋势。