1 / 60
文档名称:

搜索引擎评价指标特性的分析研究.pdf

格式:pdf   页数:60页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搜索引擎评价指标特性的分析研究.pdf

上传人:dp4537 2016/2/14 文件大小:0 KB

下载得到文件列表

搜索引擎评价指标特性的分析研究.pdf

相关文档

文档介绍

文档介绍:独创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果,也不包含为获得江苏大学或其他教育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。靴敝储鹤:聪月7日学位论文版权使用授权书江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊(光盘版)电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致,允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文编入《中国学位论文全文数据库》并向社会提供查询,授权中国学术期刊(光盘版)电子杂志社将本论文编入《中国优秀博硕士学位论文全文数据库》并向社会提供查询。论文的公布(包括刊登)授权江苏大学研究生处办理。本学位论文属于不保密口。学位论文作者签名:≯l牛年《只指导教师)()忙年江苏大学硕士论文摘要对搜索引擎的检索质量进行评价是信息检索领域的一个重要方面,因此,人们提出了许多搜索引擎评价指标。各种评价指标本身各有特色,如有的评价指标稳定性较好,但敏感性较差;另一些评价指标则反之。如何得到综合特性最优的评价指标,从而对搜索引擎的检索质量进行准确、全面、令人信服的评价,是信息检索领域面临的一个重要的难题,为此,需要准确、可靠的评估方法。本文提出了基于t检验的评估方法,同时使用该方法对文档二值相关和多值相关两种情形下的五种常用评价指标进行了实验研究,它们是MAP(meanaverageprecision,平均查准率)、******@10(precisionat10documentlevel,前10个文档的查准率)、RP(,可查全水平查准率)、RR(reciprocalranking,第一位相关文档的倒数)、NDCG(normalizeddiscountedcumulativegain,规范化带减量的累积增长)。研究结果表明,两种情形下评价指标NDCG的综合特性都是最好的,其次是MAP,然后是RP和******@10,综合特性最差的评价指标都是RR。此外,本文还提出了评价指标困难度指数的概念,它可以有效地帮助评价人员对使用不同评价指标得到的不同搜索引擎之间的检索质量进行快速地比较,研究结果表明,评价指标RR的困难度指数最小,其次是NDCG、******@10、RP,困难度指数最大的评价指标是MAP。通过本文的研究和讨论,基于t检验的评估方法可以作为评估搜索引擎评价指标综合特性的有效方法。它使得计算过程更简单、结果更可靠,并且可以量化比较的结果。该方法不仅能应用于在文档二值相关的情形下的评价指标,也能应用于文档多值相关的情形下的评价指标。另外,困难度指数概念的提出可以帮助信息检索评价人员节省大量的评价时间,提高评价的效率。关键词:搜索引擎,评价指标,评价指标特性,,,-monlyusedsearchenginemetricsexperimentlyundertwovaluerelateddocumentandmultiplevaluesrelateddocumentcircumstance,meyareMAP(meanaverageprecision)、******@10(precisionat10documentlevel)、RP(recall—levelprecision)、RR(reciprocalranking)、NDCG(normalizeddiscountedcumulativegain).prehensivecharacteristics,followedbyMAP,******@10,prehensivecha