文档介绍::,独创性声明∥学位论文版权使用授权书本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:签字日期:年月本学位论文作者完全了解江西师范大学研究生院有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权江西师范大学研究生院可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ导师签名:;,参,§日》札,一,‘
,髃∥. §譬霉,,。■觥鰈、.甶,々,』.,:
摘要关键词:信息检索;搜索引擎;性能评价;聚类分析;随着互联网的快速普及,通过网络共享的信息资源正以指数级的速度递增。要从众多的网页中找到我们需要的信息,无疑像大海捞针一样困难,搜索引擎技术就是为了帮助人们快速地找到所需的信息。而搜索引擎的检索性能评价作为信息检索研究中的核心课题之一,客观可靠的检索性能评价方式是必须考虑和设计的内容。’传统的搜索引擎性能评价方法需要人工标注标准答案集,需花费了大量的人力物力,并且评价结果依赖人工标注的准确性,效率较低。基于聚类分析的思路,提出了一种搜索引擎性能评价指标和自动进行搜索引擎性能评价的方法,此方法能自动计算信息类查询的覆盖范围,并根据其覆盖范围对检索结果进行聚类,通过评估函数实现检索性能的自动评价,并对如何利用类间距和类内距两个指标来定义合适的评估函数进行了分析。实验结果表明,基于聚类指标的评价方法与人工标注的评价方法的评价结果是相一致的。具体来说,本文的工作主要包括以下几点:.在大规模日志分析的网络搜索引擎用户行为研究的基础上,对笛室提供的查询日志进行分析,提取了查询日志中的信息类查询并提出了计算查询覆盖度的方法;使用不同的搜索引擎雀琛俣取对提取出来的信息类查询进行检索,运用一些网页抓取器将检索返回的结果网页下载保存进行预处理;构建了一个完整的检索系统评价实验平台,对检索结果进行聚类分析,通过类内距和类间距等聚类指标定义不同的评估函数对检索性能进行评价;使用抽样方法进行人工标注,用传统的评价方法对检索性能进行评价,比较分析两种评价方法的优劣,完成多种评价函数的比较实验。。●
,以
甒琫琧,珺,.,.瓵,,一瑆—..篺,.’籰..猇。,’.
■.■~他。甒篿;,
摘要⋯⋯.⋯...⋯..⋯⋯⋯..:⋯...⋯⋯⋯⋯⋯⋯⋯‘⋯⋯蟘璉目录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第一章引言⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第二章搜索引擎概述..⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯.:吃ご怼.⒌⋯⋯⋯⋯⋯⋯⋯⋯⋯.⒓⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.研究意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.论文的组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯信息检索简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯搜索引擎的发展⋯⋯⋯⋯⋯⋯⋯⋯⋯:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯搜索引擎的基本原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.搜索引擎的评价⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯相关研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.信息类查询的评价思路⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.查询覆盖度的计算⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.自动性能评价的框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.
第四章实验设计及结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯参考文献⋯⋯⋯⋯⋯⋯一.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.附录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯简历⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...拦篮冉戏治觥,#弧ⅲ丁丁谧裕臁鲁遵评价函数⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯