文档介绍:西安电子科技大学
硕士学位论文
一种基于Jena的语义检索模型研究与实现
姓名:边杰
申请学位级别:硕士
专业:情报学
指导教师:王亚民
20080101
摘要在传统信息检索系统中,通过关键字进行匹配是最为常用的方法,然而这种方式得到的结果并不能让人满意。为解决该问题,本文在回顾信息检索系统发展历史,介绍国内外搜索引擎研究的最新进展后,提出了一种基于本体的语义检索模型,并详细介绍了该模型的各个组成模块以及在语义网框架下的实现方法,重点讨论了本体提取、推理和查询的实现细节;并采用结合关键词文档矩阵的方法解决了在结果排序返回过程中,如何将本体模型与关键词进行相似度计算的问题,有效提高了系统的查准率与兼容性;同时,,简化了小型本体建模的分析流程。最后通过对实验系统的定量化分析,得出了该模型在特定条件下,可有效提高检索系统查准率与查全率的关键词:本体语义检索检索模型结论。
,.琣甒..瑆瓵:.,,
本人签名:适盎本人签名::兰丝呈:≥日期:三型望:创新性声明关于论文使用授权的说明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外畚闹胁包含其他入已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。C艿穆畚在解密后遵守此规定导师签名:
第一章绪论续、稳定地增长。年,最早的搜索引擎之一——在过来的十几年中,搜索引擎逐渐成为互联网上最重要的应用之一。根据的用户使用搜索引擎作为信息检索工具【。搜索引擎服务在国内的状况更是方兴未艾,谷歌中国与国内搜索引擎巨鳄对搜索人才的争夺更是将人们对搜索服务的关注度进一步提高,我们从下边的应用服务分布状况图,便可一见端倪.。另一份来自难芯勘ǜ嬷赋觯核孀旁谙咚阉饕娴墓惴菏褂茫既沸杂查询效率成为互联网用户选择搜索引擎时的两个关键指标W既沸灾傅氖欠祷亟果与用户想要结果的匹配程度,越匹配则准确性越高;效率指的是返回结果所要花费的时间。现存的搜索引擎往往都能非常快速的定位信息,但返回结果的质量其实,搜索结果的质量在很大程度上依赖于索引完整性、排序算法准确性,以及用户查询的表达。头两个指标对任何一个搜索引擎来说都至关重要,毫无疑问地决定了其受欢迎的程度。回顾搜索引擎短暂的发展历史,众多有革命意义的技术突破大都集中在这两个领域之中。例如,被索引的吭诠醇改曛谐,=刂恋月,世界上最大的搜索引擎公司可搜索的页面达到诟觥5鼻埃阉饕娴男阅芤丫锏搅一个瓶颈:随着被索引页面的增加,搜索算法的改进不再能成正比例的提高搜索引擎的检索性能。实际上,被索引的资源越多,搜索引擎定位到最满足用户需求的结果的难度就越大。另一个伴随着搜索引擎产生的问题是,搜索引擎通常孤立用户的查询意图通常并不能准确的反映在提交给搜索引擎的查询语句之中。近几年,一些检索引擎研究小组开始关注于利用传统检索系统方法,如查询扩展等,来提高用户查询请求的表达的准确性。在基于募焖骰肪诚拢没肭笸驴堑谋ǖ指出【,。因此,用户的检索意图与需求通常很难通过如此短的检索语句来真实反映,这也就不可避免的导致了低质量的查询结果。通过在用户查询中添加若干扩充词牡鞑橄允荆航刂恋月,有超过谌耸褂没チM渲常常不能让人满意,这也是本文所要探讨的主要方向。索引页面不过的对待一个检索请求。因此,特定查询的返回结果是明确的,用户无关的。然而,是若干单词、短语或者句子。据汇,也许能获得更加精确的查询结果。但这样做的困难却在于对这些扩充词汇的选择上,这需要对用户搜索任务与意图的细致分析。所以,如何才能使搜索引擎具有能够理解隐藏在用户简单、模糊的查询语句
有的努力都是为了达成一个目的——最大可能的查询更多精确的反映用户真实意传统检索引擎工作原理后的真实意图的能力呢鼻爸饕J枪乖觳⒗肳环境中的“上下文’’关系。很多基于此的技术被尝试应用于基于关键字的搜索引擎中以提高其查询性能。所图的结果。然而,很少有研究能够系统的考察什么构成了这种“上下文肪常这些信息又是如何被有效利用的。通常情况下,我们利