1 / 62
文档名称:

Web搜索引擎及其算法.ppt

格式:ppt   页数:62页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Web搜索引擎及其算法.ppt

上传人:hnet653 2015/12/10 文件大小:0 KB

下载得到文件列表

Web搜索引擎及其算法.ppt

文档介绍

文档介绍:Web搜索引擎
概述、体系结构、排序算法
搜索 Web
三种形式
Specific queries  encyclopaedia, libraries
Exploit hyperlink structure
Broad queries  web directories
Web directories: classify web documents by subjects
Vague queries  search engines
index portions of web
Web信息的特点
Web本身:
Large volume:8亿个页面(1999),每两年翻番。
Distributed: 分布在280万个Web Server上。
Dynamic:created,changed,moved,deleted
No-structure、heterogeneitiy:pictures、audio…
Variety of language:more than 100
Duplication :nearly 30%
High linkage: averagely more than 8 links to others.
用户
Ill-formed queries: 未经专门培训,查询请求短、不精确
Wide variance in users:每个用户在needs,expectations,knowledge等各方面均不同。
Specific behavior:85%只看第一页、78%never modify their very first query.
99%的信息对99%的用户是没用的。
迫切需要新一代的信息挖掘技术
WEB INFORMATION RETRIEVAL!!!
Web信息检索系统的分类
Web
搜索引擎
元搜索引擎
信息检索agent
目录
用户
The Taxonomy of Web Information Retrieval Systems
Web信息检索系统的分类
Web信息检索系统作为用户层和Web信息层之间的中间层,可以进一步地划分为三个层次,包括:搜索引擎与目录、元搜索引擎、信息检索agent。
在层次分类中,每一层都建立在其下各层的基础之上,并向其上各层提供信息检索服务。
这些层次分类构成了Web信息检索中的一条生产/消费链:Web信息→搜索引擎与目录→元搜索引擎→信息检索agent →用户。
下面,我们对各个层次的特点、设计思想及相互关系分别加以考察。
搜索引擎与目录
第一个搜索引擎:We Web Worm)[McBryan94]:Colorado大学
搜索引擎的基本设计思想是:
使用robot遍历Web,将Web上分布的信息下载到本地文档库
对文档内容进行自动分析并建立索引
检查索引找出与用户查询相匹配的文档(或链接)
最为著名的搜索引擎有Google,NorthernLight,AltaVista,Infoseek等。其中,NorthernLight和AltaVista所索引的Web页面都已经超过了100,000,000。
目录
目录,例如Yahoo,OpenDirectory,Snap等,与搜索引擎的工作方式不同
由人工收集或者由Web站点的作者主动提交文档
人工对Web站点和文档进行评价、分类并给出简要描述
按照主题分类并以树状的形式对Web信息资源进行组织(浏览)
对Web信息资源的分类以及描述信息建立索引(检索)
目前Yahoo包含有指向500,000个站点的链接,分布在25,000个分类中。
目录
搜索引擎与目录
搜索引擎和目录这两种Web信息检索系统各有所长。
通常,由于搜索引擎具有庞大的全文索引数据库,因此适用于检索难以查找的信息或者一些比较模糊的主题;
而目录有助于逐步缩小主题或者查找某个主题的常见的、质量较高的信息。
由于这两种系统彼此互补,因此将两者特点结合起来的一些混合系统也开始出现LookSmart等。
现有的一些著名的搜索引擎和目录也呈现出逐渐融合的趋势。例如,Yahoo在目录检索服务的基础之上,已经开始使用Inktomi的Web全文索引数据库提供与搜索引擎类似的Web信息全文检索服务。
元搜索引擎
用户经常需要检索多个系统以改善检索的效果。各个搜索引擎的用户接口是异构的,有其特定且复杂的界面和查询语法,这给用户同时使用多个系统带来了不便。
一些研究人员针对这种状况而开发了元搜索引擎,其中比较著名的有MetaCrawler,SavvySearch等。