文档介绍:北京邮电大学
硕士学位论文
基于本体的跨语言全文检索模型的研究
姓名:吴芳
申请学位级别:硕士
专业:软件工程
指导教师:吴国仕
20050524
基于本体的跨语言全文检索模型的研究摘要近年来,国内企业纷纷走向国际化,企业内部涉及多种语言,这样跨语言信息检索成为企业关注的焦点,虽然已经存在某些系统,但是它们使用的是传统的全文检索策略,这种检索策略寻找的信息仅仅是字面本身的信息,单纯的字符匹配无法提供基于概念的智能检索,计算机无法识别其语义以至于忽略了这个信息的概念及其相关的成分,并且往往会返回大量无关信息,这样系统的查全率和查准率都很低。因此,企业迫切需要一种智能跨语言检索系统。为此,我们提出了一种基于本体的跨语言全文搜索引擎。它不但能够实现跨语言的信息检索,还能够理解查询的隐含信息,返回给用户与输入查询密切相关的信息。本文对多种搜索引擎作了深入地研究,最终选择作为本模型的检索基础。是一种开放源代码搜索引擎框架,它能够处理多种语言,但是它是基于关键字的全文检索,具有传统搜索引擎不能理解查询语义的缺点。基于这种情况,我们在的基础之上,利用本体在描述事物上的优势,对用户的查询进行扩展,突破了基于关键字的传统检索策略的不足,能够返回给用户与关键字紧密相关的各种信息。我建了自己的模型,实现的是以旅游知识为检索领域的智能搜索引擎,模型检索来自于新浪和雅虎的篇文档,使用平均查准/查全率曲线对检索策略进行评价。通过与传统跨语言搜索引擎的对比性研究我们得出:基于本体的检索策略有效的提高了跨语言全文检索的性能。本系统与其它基于本体的智能搜索引擎的区别在于对本体的依赖程度。本系统以为检索基础,即使某一概念在本体库中没有涉及,本系统也能凭借的全文检索技术进行检索,所以依赖本体的程度大大降低。当然,使用的本体越全面,查全率就越高。另外,本系统具有很强的复用价值。只需要配备相应领域的本体库,就可以用于相应领域的检索。对于检索的效率和结果而言,本系统基本达到了最初的设计目的。关键词:缬镅孕畔⒓焖鞅咎
—甪猣甌甒瓸,.甇轝琒琤琒瓵琒...琤甋琣..琇甀,痳,
.篖瓼甀,琲..
导师签名:—务軁盆二日期:■錖善二本人签名:毯短‘丝』:』:保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注释:本学位论塞不属于保密范围,适用本授权书。独创性虼葱滦声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示狻申请学位论文与资料若有实本人承担一切相关责任。关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑本人签名:日期:
第一章绪论研究背景及问题的提出本文的工作和意义本章描述了研究的背景及其问题的提出,并阐述了本文工作的意义。近年来随着我国企业国际化发展步伐加快,企业内部可能同时存在多种语言,这样语言的多样化成为企业内部信息交流的障碍。为了更加全面地获取信息,企业迫切需要一种跨语言搜索引擎珻,即允许用户使用其熟悉的一种语言缒赣构造查询检索式,检索出以另外一种或几种语言表达的信息。如,在一家国际旅行社,用户只需要输入“海滩观光”,系统即可返回包含“钡挠⑽男畔⒑汀昂滩观光”的中文信息。这样~来,即使用户对英文不熟悉,也可以方便的查找出符合其检索需求的英文资料,然后结合人工或者机器翻译的方法加以利用。然而,现存的一些跨语言检索系统往往是传统的基于关键字的全文检索,这种系统往往存在如下的问题:首先,传统的全文信息检索寻找的仅仅是字面本身的信息,单纯的字符匹配无法提供基于概念的智能检索,计算机无法识别其语义,但我们想要的是这个信息的概念及其相关的成分。而且,它往往会返回大量无关信息,:。这样用户需要花时间排除无关信息,才能找到真正想要的信息所以,所以导致传统检索的查全率和查准率都较低。本系统研究了搜索引擎的索引和检索的相关技术,描述了本体以及语义网的概念及其相关应用,阐述了多语言处理的相关理论和技术,最后综合这些技术和方法在传统的全文检索技术的基础上,提出了一种基于本体的跨语言全文搜索模型—,利用在知识表示和知识描述方面的优势,实现基于概念的智能检索。我们实现了一个国际旅