1 / 57
文档名称:

Web搜索引擎及算法-课件(PPT·精·选).ppt

格式:ppt   页数:57页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Web搜索引擎及算法-课件(PPT·精·选).ppt

上传人:aidoc7 2016/1/24 文件大小:0 KB

下载得到文件列表

Web搜索引擎及算法-课件(PPT·精·选).ppt

相关文档

文档介绍

文档介绍:WebWeb搜索引擎搜索引擎概述、体系结构、排序算法搜索搜索 Web Web?三种形式–Specific queries ? encyclopaedia, libraries?Exploit hyperlink structure–Broad queries ? web directories?Web directories: classify web documents by subjects–Vague queries ? search engines?index portions of webWebWeb信息的特点信息的特点?Web本身:–Large volume:8亿个页面(1999),每两年翻番。–Distributed:分布在280万个Web Server上。–Dynamic:created,changed,moved,deleted–No-structure、heterogeneitiy:pictures、audio…–Variety of language:more than 100–Duplication :nearly 30%–High linkage: averagely more than 8 links to others.?用户–Ill-formed queries: 未经专门培训,查询请求短、不精确–Wide variance in users:每个用户在needs,expectations,knowledge等各方面均不同。–Specific behavior:85%只看第一页、78%never modify their very first query.?99%的信息对99%的用户是没用的。迫切需要新一代的信息挖掘技术WEB INFORMATION RETRIEVAL!!!WebWeb信息检索系统的分类信息检索系统的分类Web搜索引擎元搜索引擎信息检索agent目录用户The Taxonomy of Web Information Retrieval SystemsWebWeb信息检索系统的分类信息检索系统的分类?Web信息检索系统作为用户层和Web信息层之间的中间层,可以进一步地划分为三个层次,包括:搜索引擎与目录、元搜索引擎、信息检索agent。?在层次分类中,每一层都建立在其下各层的基础之上,并向其上各层提供信息检索服务。?这些层次分类构成了Web信息检索中的一条生产/消费链:Web信息→搜索引擎与目录→元搜索引擎→信息检索agent →用户。?下面,我们对各个层次的特点、设计思想及相互关系分别加以考察。搜索引擎与目录搜索引擎与目录?第一个搜索引擎:W Wide Web Worm)[McBryan94]:Colorado大学?搜索引擎的基本设计思想是:–使用robot遍历Web,将Web上分布的信息下载到本地文档库–对文档内容进行自动分析并建立索引–检查索引找出与用户查询相匹配的文档(或链接)?最为著名的搜索引擎有Google,NorthernLight,AltaVista,Infoseek等。其中,NorthernLight和AltaVista所索引的Web页面都已经超过了100,000,000。目录目录?目录,例如Yahoo,OpenDirectory,Snap等,与搜索引擎的工作方式不同?由人工收集或者由Web站点的作者主动提交文档?人工对Web站点和文档进行评价、分类并给出简要描述?按照主题分类并以树状的形式对Web信息资源进行组织(浏览)?对Web信息资源的分类以及描述信息建立索引(检索)–目前Yahoo包含有指向500,000个站点的链接,分布在25,000个分类中。目录目录搜索引擎与目录搜索引擎与目录?搜索引擎和目录这两种Web信息检索系统各有所长。–通常,由于搜索引擎具有庞大的全文索引数据库,因此适用于检索难以查找的信息或者一些比较模糊的主题;–而目录有助于逐步缩小主题或者查找某个主题的常见的、质量较高的信息。?由于这两种系统彼此互补,因此将两者特点结合起来的一些混合系统也开始出现LookSmart等。–现有的一些著名的搜索引擎和目录也呈现出逐渐融合的趋势。例如,Yahoo在目录检索服务的基础之上,已经开始使用Inktomi的Web全文索引数据库提供与搜索引擎类似的Web信息全文检索服务。元搜索引擎元搜索引擎?用户经常需要检索多个系统以改善检索的效果。各个搜索引擎的用户接口是异构的,有其特定且复杂的界面和查询语法,这给用户同时使用多个系统带来了不便。?一些研究人员针对这种状况而开发了元搜索引擎,其中比较著名的有MetaCrawler,SavvySearch等。