文档介绍::.篊::’
·夕莎夕学位论文作者签名:丑鄙日期:文、学位论文作者签名:王孥西华大学学位论文独创性声明西华大学学位论文版权使用授权作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体己经发表的研究成果,也不包含其他己申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。日期:本学位论文作者完全了解学校有关保留、使用学位论文的规定,在校攻读学位期间论文工作的知识产权属于西华大学,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西华大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。C艿穆畚脑诮密后遵守此规定指导教师签名:日期
/
要随着信息技术的飞速发展,互联网上新的网页每天以惊人的速度在增长;这为满足用户检索信息提供了足够大的空间,但是想找到满足需求的信息也越来越成为困扰用户的一个问题。搜索引擎作为一种网上信息服务系统,为用户在上查找信息提供了方便。用户在使用搜索引擎进行信息查找时,通常都是向搜索引擎提交一系列的查询词,但是由于自然语言的模糊性,用户提交的这些初始查询词并没有被搜索引擎准确理解,导致搜索引擎返回的信息中有些与用户的查询意图是不相关的,甚至有些还会严重偏离用户的搜索主题。解决词不匹配问题成为信息检索领域中十分重要的研究课题,查询扩展是解决词不匹配问题的有效技术。为了更好地解决查询词扩展技术存在的问题,论文结合形式概念分析牍丶始尤ń辛瞬檠世┱沟难芯俊论文的主要研究内容归纳如下:岢鲆恢侄圆檠┱乖唇杏呕姆椒āS呕幕舅枷胧牵菏紫确直鸲杂没关反馈过程中得到的文档和由搜索引擎返回的文档集中那些不同于用户相关反馈过程中得到的文档进行分析,运用形式概念分析的知识建立两个概念格为了区分,就把这两个概念格分别称之为“用户概念格汀巴诰蚋拍罡瘛保缓笸ü计算概念相似值,在“挖掘概念格姓页鲇搿坝没Ц拍罡相似度较高的概念,最后抽取出这些概念的外延,并将它们加入到用户选择的文档集合中去,达到优化查询扩展源的目的。岢鲆恢滞ü丶始尤ń胁檠世┱沟姆椒āT谡庵址椒ㄖ校紫劝延没初始查询和查询扩展源中的文档转化为向量,通过计算向量之间的相似度得到文档与查询的相似权值,接着分别在单个文档和整个文档集中分析词的权重,然后把这些权重值进行合理的结合得到词的最终权重,最后选取那些权重值大的词作为查询扩展词。借助这种方法,可以在整个文档集中抽取出质量较高的词作为查询扩展词。论文最后通过组不同主题的用户查询词以及搜索引擎对每组查询词返回的前个网页进行实验验证。实验数据表明:论文提出的方法具有较大的实际应用价值,它能够明显地提高搜索引擎的准确率和召回率。关键词:搜索引擎;查询词扩展;形式概念分析;关键词加权西华大学硕士学位论文,
甶甀琻“瓵’.,.,.瑃“’.·,:瑆’
篠籉;—;.
目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯搜索引擎发展现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.檠世┱辜际跹芯肯肿础查询词扩展技术存在的问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究背景和意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯论文主要内容与结构⋯⋯⋯⋯⋯⋯一:.:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。谛问礁拍罘治龅牟檠世┱乖从呕呗浴形式概念分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯优化查询词扩展源⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯概念相似度计算方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.:⋯⋯⋯⋯基于距离的概念相似度计算方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.诠丶始尤ǖ牟檠侍崛〔呗浴停用词⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.关键词加权⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一查询词的提取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.查询词提取过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...檠侍崛∷惴ā向量相似度计算方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一笛榧敖峁治觥系统实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯