文档介绍:西华大学
硕士学位论文
基于形式概念分析的元搜索引擎的结果聚合研究
姓名:董芹华
申请学位级别:硕士
专业:计算机软件与理论
指导教师:杜亚军
20090501
基于形式概念分析的元搜索引擎结果聚合研究摘要计算机软件与理论研究生董芹华指导教师杜亚军元搜索引擎是一种通过调用其他独立搜索引擎来实现搜索的信息检索工具。它一般没有独立的数据库,而是通过对多个独立搜索引擎的调用、整合、控制和优化来实现信息检索。它通过对成员搜索引擎的调度、文本选择、结果聚合三个主要步骤来完成信息检索任务,所以,成员搜索引擎的调度和查询结果的聚合都是元搜索引擎的关键技术。其中,成员搜索引擎调度策略保证了元搜索引擎选择最适合用户要求的成员搜索引擎参加查询,一方面提高了查询效率,另一方面能为元搜索引擎结果聚合提供良好的数据源。元搜索引擎的结果聚合过程就更为重要,因为聚合结果最终能反映此次查询的准确度和相关度,体现元搜索引擎的性能。所以,良好的调度策略和结果聚合算法不仅可以有效提高元搜索引擎的搜索覆盖率,更能提高搜索结果的准确度和相关度。基于这些想法,本文对以下内容作了研究:恳桓龀稍彼阉饕嬖谕缟隙加凶约旱母哺橇煊颍8玫姆⒒用个成员搜索引擎的优势,本文提出一种新的成员搜索引擎调度策略。首先利用静态学习的方法获得成员搜索引擎在各领域的查询能力,用户提交查询词后,元搜索引擎首先要确定查询所在的领域,然后通过比较成员搜索引擎在此领域的查询能力选择恰当的成员搜索引擎参加查询。完成一次查询后,通过分析用户的反馈行为对成员搜索引擎的查询能力进行调整,指导元搜索引擎进行下次查询。岢隽嘶谛问礁拍罘治龅慕峁酆戏椒ǎ运谐稍彼阉饕娣祷网页的并集作为对象,以参加查询的成员搜索引擎作为属性,构建概念格。在两华人学硕十学侮论文
遍历概念格的过程中实现结果聚合,把聚合过程看成是一个投票选举过程,参加查询的成员搜索引擎作为投票人,而每一个网页被看作是一个候选人。也就是说如果一个文档被越多的成员搜索引擎所检索到,那么这个文档相对越重要。如果有很多文档被相同多的成员搜索引擎检索到,那么它们的重要性就取决于检索到它们的成员搜索引擎在对应领域的查询能力和文档在这些搜索引擎中的原始序列。诒疚奶岢龅牡鞫炔呗院徒峁酆纤惴ü菇嗽K阉饕嫦低常文中提出的算法进行了实验和分析,设定查询词,将本文元搜索引擎的搜索结果与当前几个中文元搜索引擎的搜索结果进行对比,对系统的性能进行了综合评价。关键词:元搜索引擎,调度策略,形式概念分析,结果聚合交H搜学位论文
:.琣篞&甀痶昏甋.·,·琤,瓸瑃盯,瓻瑃。
·瑃,甅甅甅:.,,.瑃,.甌..’
穚年导师虢批境立普绎Ⅵ叫年‘月月声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得西华大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本学位论文成果是本人在西华大学读书期间在导师指导下取得的,论文成果归西华大学所有,特此声明。两华人学硕十学位论文作者签名:日
醐骸蜼指导教师签名:杉日期:卅籽年⒉槐C苡笆视帽臼谌ㄊ椤授权书西华大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西华大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于⒈C芸冢年解密后适用本授权书;朐谝陨峡谀诨学位论文作者签名:两华大学硕十学位论文
研究背景研究目的和意义着以及相关技术的不断发展,网上的信息爆炸性地增长,给人们准确元搜索引擎且恢只诙懒⑺阉饕娴乃阉饕妫S没峁┩骋坏检索界面,接收并处理用户的查询;然后根据一定的调度策略,选择调用一个信息化时代,已经成为人们获取资源和信息的主要场所。但是随查找信息带来很多困难。搜索引擎的出现虽然在一定程度上解决了这个问题,但是由于独立搜索引擎的搜索覆盖范围的限制往往不能满足用户查找信息全面性的需求,于是元搜索引擎诞生并成为新的研究热点。难杆俜⒄菇死啻肓诵畔⑸缁岷屯缡贝币惨H嗣接受如何在浩瀚的信息海洋中准确快速有效地找到所需要信息的挑战。搜索引擎某鱿指嗣谴戳朔奖恪>改甑姆⒄梗阉饕嬉经取得了较大的成就,很多搜索引擎相继面世,如著名的俣取】,雅虎】等搜索引擎。但是这些独立的搜索引擎在日益增长的网络信息面前仍有很多局限性,这些局限性主要表现在:独立搜索引擎的信息覆盖率不高。根据专家的评测,目前主要搜索引擎返回的相关结果的比率不足%,同一