1 / 56
文档名称:

基于元搜索调度算法的领域搜索模型的研究(可复制毕业论文).pdf

格式:pdf   页数:56页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于元搜索调度算法的领域搜索模型的研究(可复制毕业论文).pdf

上传人:mkt365 2014/1/10 文件大小:0 KB

下载得到文件列表

基于元搜索调度算法的领域搜索模型的研究(可复制毕业论文).pdf

文档介绍

文档介绍:要摘随着互联网和技术的不断发展,搜索引擎凭借自身的特殊优势,在前进的道路上扮演着越来越重要的角色,同时也成为人们关注的热点。由于互联网上信息的海量化,异构及动态特性的不断升级,通用搜索引擎在解决网页搜索问题时越来越不能令人满意,于是出现了元搜索引擎。元搜索引擎是一种上应用的信息检索的软件系统,它通过将用户的查询请求转发给成员搜索引擎,然后将各个成员搜索引擎返回的结果进行处理后提交给用户。元搜索在一定程度上提高了查全率,然而在面临用户准确查询时也会面临针对目前信息查询中遇到的问题,本文提出了一种面向领域的搜索模型,这种模型以元搜索技术为基础,在提高查全率的同时,通过引入领域词加权模块,为用户的标准查询表达式额外再生成一个领域查询表达式,这两个表达式合取并作为通用搜索引擎接口的输入,最后采用基于扩展布尔模型的排序算法对返回的文献结果集进行相关度排序⒍栽K阉鞯鞫炔呗越辛松钊胙芯浚治銎溆湃钡悖页銎浯嬖诘牟蛔悖詈提出了一种基于学习的元搜索混合调度模型,这种模型从查全率、查准率、平均响应时间、用户兴趣偏好四个方面出发,综合考虑影响成员搜索引擎调度的各个因素,最后对该算法进行了相关分析。⒄攵缘鼻傲煊蛩阉饕嬖诠菇ㄗ约旱乃饕菘夥矫娴南拗频龋疚墓菇艘种基于元搜索的领域搜索模型,这种模型以传统的通用搜索引擎为基础,引入功能模块,通过各个模块分工合作,使整个搜索模型在提高用户查询方面获得了很好的效果。⒐菇艘恢只诹煊蛑J犊獾牧煊虼始尤?椋ü杂没Р檠畔⒎治鐾臣和注册用户信息反馈,从而对领域知识库中的领域词及其层次结构进行动态更新,使领域知识库具备一定的学习能力。⒃诜治鱿钟屑焖髂P陀帕拥幕∩希捎昧嘶诶┱共级P偷呐判蛩惴ǘ猿员搜索引擎的返回结果进行相似度排序,以提高用户满意度,最后设计并实现了一个基于元搜索调度策略的面向特定领域的搜索引擎。关键词:元搜索;调度策略;领域词;领域搜索模型困难。并将最终排序结果返回用户。本文主要研究内容:大连理工大学硕士学位论文一
.畁..—’基于元搜索调度算法的领域检索模型研究,甌琲,琲瑆瞖..,.籥..琣瑃;.,畂...,:琾,,—‘
篗;大连理工大学硕士学位论文.,;··籇畉.,’
学位论文题目:越之。越塞孟邛特角道菅筇盒陀塞大连理工大学学位论文独创性声明型星年ピ律螸日作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果∥宜#闹幸丫⒚饕媚谌莺椭滦坏牡胤酵猓本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。作者签名:日期:
嘲:妒洲严日学位敝题目:整麦。碰型瓣魄丛丝越逖螋磁型曛乖氯ト大连理工大学学位论文版权使用授权书本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有缩印、或扫描等复制手段保存和汇编本学位论文。日期:基于元搜索调度算法的领域检索模型研究
言引研究背景互联网最近的多年发展中,互联网上的信息,尤其是资源的增长非常迅速。据谷歌、库中的超过亿的动态页面。据中国互联网络信息中心的调查,至年底,中国大陆子邮件和新闻浏览的互联网应用服务。据调查,截止到年底,中国搜索引擎用户达到了冢泄阉饕娴ピ碌乃阉髑肭罅恳丫黄亿。资源是互联网上最丰引了亿个页面,到了年中期,谷歌收录的网页达到了凇U飧鍪掷牖チ页还不足互联网上全部网页的¨。搜索引擎的出现从某种程度上来说,方便了用户从浩瀚的信息海洋中搜索感兴趣的信息。但是用户在用搜索引擎进行信息搜索时,常常会发现大量重复或者不相关的结果也被搜索引擎检索出来,浪费用户的时间和精力。而且,不同的搜索引擎由于资源的覆盖范围和检索算法的不同,往往返回不同质量的结果,用户为了获得更满意的结果,通常要在多个搜索引擎间切换。这些问题的产生主要是由于通用搜索引擎自身的局限性【浚◆单个索引数据库的覆盖范围有限,信息查全率低。上的信息资源是动态变化的,主要表现为信息量呈指数级增长,信息内容不断更新,信息存放位置的不断变更等。任何一个通用搜索引擎都不可能覆盖上的所有网页信息。◆冗余重复信息量大。尽管现有的搜索引擎对搜索结果进行了一定的消重处理,但是几乎每个搜索引擎都会搜索出重复的或者基本与查询不相关的结果,用户只能人工从这些结果中发现自己需要的信息。◆索引数据库规模大,更新周期长。由于信息的爆炸性增长,通用搜索引擎要跟上信息的增长速度,索引数掘库的规模就会不断增大,对大规模索引数据库的维护雅虎、和麻省理工学院等机构的估计,至年拢チM