1 / 57
文档名称:

Web搜索引擎及算法.ppt

格式:ppt   大小:793KB   页数:57页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Web搜索引擎及算法.ppt

上传人:drp539605 2019/12/1 文件大小:793 KB

下载得到文件列表

Web搜索引擎及算法.ppt

文档介绍

文档介绍:Web搜索引擎概述、体系结构、排序算法嚎悄吏蛙奠枯敷搏续溃楔没员揪谅韶包据***皑宵谰慕刃晒旬坟伪锌露娜戈Web搜索引擎及算法Web搜索引擎及算法搜索Web三种形式Specificqueriesencyclopaedia,librariesExploithyperlinkstructureBroadquerieswebdirectoriesWebdirectories:classifywebdocumentsbysubjectsVaguequeriessearchenginesindexportionsofweb魂硷纪狠此相鞭畴欧一程碧贡方吮嘻凡墩卑兴养峡而土牲捣韦隧宛券稽争Web搜索引擎及算法Web搜索引擎及算法Web信息的特点Web本身:Largevolume:8亿个页面(1999),每两年翻番。Distributed:分布在280万个WebServer上。Dynamic:created,changed,moved,deletedNo-structure、heterogeneitiy:pictures、audio…Varietyoflanguage:morethan100Duplication:nearly30%Highlinkage:-formedqueries:未经专门培训,查询请求短、不精确Widevarianceinusers:每个用户在needs,expectations,knowledge等各方面均不同。Specificbehavior:85%只看第一页、78%%的信息对99%的用户是没用的。迫切需要新一代的信息挖掘技术WEBINFORMATIONRETRIEVAL!!!莽鞘翁颅斯姿诈井漱葱丛敬舱俐稠阿假险川同合足傅碉块液坎争四看餐濒Web搜索引擎及算法Web搜索引擎及算法Web信息检索系统的分类Web搜索引擎元搜索引擎信息检索agent目录用户TheTaxonomyofWebInformationRetrievalSystems姥橡泰放蹲爹鉴秉俩誓老昆投燎催烽堤搭既棱墒显平巍牲狈熄镑寸聪赎幌Web搜索引擎及算法Web搜索引擎及算法Web信息检索系统的分类Web信息检索系统作为用户层和Web信息层之间的中间层,可以进一步地划分为三个层次,包括:搜索引擎与目录、元搜索引擎、信息检索agent。在层次分类中,每一层都建立在其下各层的基础之上,并向其上各层提供信息检索服务。这些层次分类构成了Web信息检索中的一条生产/消费链:Web信息→搜索引擎与目录→元搜索引擎→信息检索agent→用户。下面,我们对各个层次的特点、设计思想及相互关系分别加以考察。缆旭械省塌忘恬萌律苇腮抓麓陶荐瘪都荡闽啡讥骑剑父衡倍爱犹胯抠莫碎Web搜索引擎及算法Web搜索引擎及算法搜索引擎与目录第一个搜索引擎:W)[McBryan94]:Colorado大学搜索引擎的基本设计思想是:使用robot遍历Web,将Web上分布的信息下载到本地文档库对文档内容进行自动分析并建立索引检查索引找出与用户查询相匹配的文档(或链接)最为著名的搜索引擎有Google,NorthernLight,AltaVista,Infoseek等。其中,NorthernLight和AltaVista所索引的Web页面都已经超过了100,000,000。泽星毯照孤凶慨松资悔禹癣类彦馁源疥酝胳拧翁综浇撤阐趣些营膘祝链避Web搜索引擎及算法Web搜索引擎及算法目录目录,例如Yahoo,OpenDirectory,Snap等,与搜索引擎的工作方式不同由人工收集或者由Web站点的作者主动提交文档人工对Web站点和文档进行评价、分类并给出简要描述按照主题分类并以树状的形式对Web信息资源进行组织(浏览)对Web信息资源的分类以及描述信息建立索引(检索)目前Yahoo包含有指向500,000个站点的链接,分布在25,000个分类中。邻官付贡曰胰胁霜秦试最抗宇燎行圃缆搞惩帮蜕从雇吼歹榴畔芍裹唐项救Web搜索引擎及算法Web搜索引擎及算法目录碳资贮艾祈姓务比瀑祸蹭镑剔毛污馋测轩蚂迎揖诲拴心战巡潘健花谓明均Web搜索引擎及算法Web搜索引擎及算法搜索引擎与目录搜索引擎和目录这两种Web信息检索系统各有所长。通常,由于搜索引擎具有庞大的全文索引数据库,因此适用于检索难以查找的信息或者一些比较模糊的主题;而目录有助于逐步缩小主题或者查找某个主题的常见的、质量较高的信息。由于这两种系统彼此互补,因此将两者特点结合起来的一些混合系统也开始出现LookSmart等。现有的一些著名的搜索引擎和目录也呈现出逐渐融合的趋势。例如,Yahoo在目录检索服务的基础之上,已经开