文档介绍:西华大学
硕士学位论文
基于领域本体的用户查询词扩展方法的研究
姓名:张冰
申请学位级别:硕士
专业:计算机软件与理论
指导教师:李海明;杜亚军
20090501
基于领域本体的用户查询词扩展方法的研究指导教师李海明杜亚军计算机软件与理论研究生张冰查询词扩展技术作为一种提高信息检索精度的技术,被广泛应用到了搜索引擎中,并成为一个研究热点。本体是共享概念模型的明确地形式化规范说明,其中包含概念模型、明确、形式化、共享四层含义。由于本体可以被用来描述某个领域或者范围里的概念以及概念与概念之间的关系,使得这些信息在共享时具有大家共同认可的、明确的、唯一的定义,所以在信息检索中可以帮助人们在统一规范的信息系统中高效地检索到有用的信息。为了更好地实现查询词扩展,本文结合了本体中信息的统一规范性以及层次关系明确等优点,提出了基于领域本体的查询词扩展方法。该方法在一定程度上克服了传统查询词扩展的语义性差、主题性差等缺点。本文的主要研究内容归纳如下:岢隽艘恢只诹煊虮咎宓牧煊蛳喙卮食槿》椒ā1疚幕贕网页目录建立了领域本体。把待抽取领域相关词的网页切词、分词,由这些词组成一个词集合,并且根据这些领域本体,从词集合中抽取符合给定阈值的领域相关词。这些领域相关词可以代表某一个或者某几个领域。将这些领域相关词填充到已建立的领域本体中,形成新的领域本体。实验表明使用本文方法抽取的领域相关词在表达文档上优于使用传统方法提取的关键词。岢隽嘶谛问礁拍罘治龅牟檠世┱乖吹牟椒āJ褂么笪谋炯作为形式背景建立概念格。在概念格中为用户查询词计算上近似概念以及下近似概念,并根据用户查询词及其上近似概念的属性和下近似概念的属性确定查询词扩展源。两华人学硕十学位论文
岢隽艘恢只诹煊虮咎宓牟檠世┱狗椒ā6圆檠世┱乖粗械拇与领域本体中的概念进行匹配计算,确定领域本体中的匹配概念和匹配属性,进而以匹配概念和匹配属性为核心建立子领域本体。实现用户查询词的领域泛化和细化,最终完成用户查询词的扩展。实验通过把本文方法的查询词扩展结果与其它搜索引擎的查询词扩展结果对比,表明了本文提出的方法是具有可行性的。关键词:搜索引擎,领域本体,领域相关词,查询词扩展两华大学硕士学位论文Ⅱ
.琩琭,,鱒两华大学硕宦畚:琱琣甇:,..瑃..瓵甌琣,Ⅱ
·.琎甈甎,鷇篠痲...’瓵,
导师签名:狄垤日垆朽年衫月,本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得西华大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本学位论文成果是本人在西华大学读书期间在导师指导下取得的,论文成果归西华大学所有,特此声明。两华人学硕宦畚作者签名:日
即指导教师签名:乏∥步备晰日期:如·歹学位论文作者签名:弛凇西华大学学位论文版权使用授权书谌ㄊ本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西华大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于⒈C芸冢年解密后适用本授权书;朐谝陨峡谀诨日期:西华人学硕十学位论文、,
域中提高查询结果精度的一种有效方法一查询词扩展技术【,被广泛应用到髀信息时代里,互联网不断发展并日益普及,网上的信息量正在以爆炸式的速度增长。年拢泄チM镜氖渴万个,网页数目约为诟觥月,中国互联网网站的数目已经达到万个,相应的网页数目也随之快速增长【¨。这对于越来越多的以互联网作为主要信息来源的网民来说,可谓喜忧参半。迅速增长的网页虽然可以给人们提供更多的信息,但是广大网民面对如此浩渺的信息海洋,如何有效地找到自己所需要的信息已经成为一个越来越受关注的问题。自从年由蒙特利尔大学学生发明的“搜索引擎”J迹恢钡较衷冢髦指餮乃阉饕相继问世。如:““等等。由于搜索引擎搜索范围广泛,因此搜索引擎的返回结果中会包含大量用户不感兴趣的网页。其中一个主要原因是搜索引擎通过用户查询词与网页直接匹配来获得搜索结果,没有考虑到用户查询词所表达的含义与用户实际需要之间的差别,以及用户查询词在自然语言中的歧义性和模糊性。因此,信息检索领搜索引擎中。它通过把与用户查询词相近或者相关的词扩展到用户查询词中的方法,实现更准确地描述用户的信息需求,并且去除用户查询词的歧义性。从而使得搜索引擎可以更精确地检索到用户所需要的信息。为搜索引擎寻找更好的查询词扩展方法一直以来都是一个热门研究问题。针对查询词扩展方法具有语义性差、主题性差等缺点。本文运