1 / 62
文档名称:

基于本体的专业搜索引擎的研究与设计.pdf

格式:pdf   页数:62
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于本体的专业搜索引擎的研究与设计.pdf

上传人:banana 2014/2/28 文件大小:0 KB

下载得到文件列表

基于本体的专业搜索引擎的研究与设计.pdf

文档介绍

文档介绍:西北大学
硕士学位论文
基于本体的专业搜索引擎的研究与设计
姓名:赵大明
申请学位级别:硕士
专业:计算机应用技术
指导教师:鱼滨
20090612
摘要随着互联网信息的飞速增长,越来越多的人选择搜索引擎作为网络信息获取的主要手段。然而互联网上的信息浩如烟海,内容庞大,如何准确、全面的获取特定领域的网络信息成为搜索引擎研究的重点。为用户提供特定信息服务的专业搜索引擎正好符合这一发展需求,因此近些年来得到了迅猛的发展。本文首先介绍了搜索引擎及本体相关技术,重点研究了专业搜索引擎与元搜索引擎,分析了元搜索技术与本体技术相结合构建专业搜索引擎的意义。本文采用元搜索技术在一定程度上弥补传统搜索引擎的不足,扩大了搜索范围和提高了查全率。本文在元搜索引擎基础上,引入本体概念,在对目前主要的本体构建方法进行分析比较后,提出了一种适合培训领域本体构建的方法,并使用∈.菇ㄅ嘌盗煊虮咎濉S捎诒体是对领域知识概念的抽象和描述,可以使信息检索从基于关键字上升到基于语义检最后将构建的本体引入到培训领域的信息检索中,设计了一个面向培训领域的基于本体的专业搜索引擎,通过对返回结果的分析和评价,得出本专业搜索引擎比传统搜索关键词:本体,专业搜索引擎,元搜索引擎,语义相似度索,进而提高了检索的查准率。引擎具有更高的查全率和查准率。
..,·琣,.琺甋琱·—..仃.,:甌甋,甇畉.,
学位论文作者签名:盆水。寸妙月/沙日学位论文作者签名:丝垒茎旦支指导教师签名:硼∞年鋐归∥‘年耭汐侣西北大学学位论文知识产权声明书本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论文收录到《中国学位论文全文数据库》或其它相关数据库。保密论文待解密后适用本声明。西北大学学位论文独创性声明’·本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢音思。
第一章绪论论文的研究背景交流的主要渠道,然而随着网页信息呈几何级数爆炸性增长,用户要在如此浩瀚的信息海洋里寻找需要的信息,犹如大海捞针,搜索引擎技术恰好解决了这一难题。搜索引擎以一定的策略在互联网中搜索、发现信息,对信息进行理解、提取、组织和处理,并为的网络信息资源和用户的查询需求之间的矛盾。然而随着互联网上信息数量的不断增加,人们发现传统的搜索引擎存在许多不足之处【浚、信息覆盖率低,查全率低;冗余和噪声信息含量大;⒚扛鏊阉饕娴男畔⒆试床钜齑螅、索引数据库大,更新慢,响应时问长等。产生这些问题的原因主要是由于传统的搜索引擎本身发展的局限性带来的:第一,传统搜索引擎由于受自身搜索机制、搜索算法等因素限制,搜索网页的覆盖率有限。据权威统计,目前搜集网页最多的搜索引擎仓荒艽锏叫畔⒘康%左右【浚旱诙豢悸翘囟ㄓ没В绕涫嵌杂谔囟煊颉⑻厥庾ㄒ档挠没У男枨螅键词几乎没有任何语义,这也是目前信息检索技术存在的最大缺陷。目前,尽管在关键词的基础上对检索技术做了许多改进,但也仅仅是算法和语法上的改进,并没有添加任何处理语义方面的机制,检索的性能不能得到本质的提高,所提供的信息检索查准率难针对以上这些问题,未来的搜索引擎总体来讲发展趋势大致为以下几个方向【浚智能搜索引擎【是以自然语言理解技术为基础,结合了人工智能技术的新一代搜索面提高到基于知识和概念层面,对知识具有一定的理解与处理能力,并能够实现自动分词技术、同义词识别技术、概念搜索、短语识别以及机器翻译等技术。因而这种搜索引二十一世纪,随着网络信息的飞速发展,互联网已经成为人们获取所需资源和信息用户提供检索服务,从而起到信息导航的作用。目前、百度等通用搜索引擎【取得了巨大的成功,在一定程度上解决了庞大第三,传统搜索引擎信息检索都建立在关键词的基础之上,然而对计算机而言,这些关以令人信服。悄芑引擎。如果计算机实现了机器翻译、人机对话功能,或自动文摘等语义信息处理功能,则认为计算机具备了自然语言理解的能力。由于它将信息检索技术从目前基于关键词层西北大学硕士学位论文
能搜索引擎的研发方向主要有两个:一是基于机器翻译技术,利用计算机实现自然语言通过全文扫描和词语间关系的分析,实现搜索引擎对搜索关键词在语义层次上的理解。答案;如何实现合理的推理计算方法:如何建立大规模的知识