文档介绍:兰州大学
硕士学位论文
基于本体论的领域元搜索引擎的研究与设计
姓名:张鑫
申请学位级别:硕士
专业:计算机科学与技术、计算机软件与理论
指导教师:陈晓云
20100501
摘要随着互联网飞速的发展,互联网已经成为了世界上最大的信息资源库,越来越多的人选择搜索引擎作为查找信息的主要手段。但是面对如此巨大的信息量,如何快速、准确的找到某一领域的信息,成为了搜索引擎的研究重点。在这样的情形下,领域搜索引擎应运而生。然而目前的领域搜索引擎大都是只对关键字进行机械式的匹配,致使搜索引擎返回大量的结果,用户还需要对这些结果进行再筛选的工作。为了解决这个问题,本文在领域搜索引擎中引入了本体论的概念,希望借助本体论在语义表达方面强大的功能,来提高搜索引擎的在语义理解方面的能力。为了实现上述的想法,本文主要做了如下两方面的具体工作:园林树木领域本体的构建。首先介绍了本体的构建工具,并说明了本文采用ぞ叩脑颍蝗缓笙晗傅奶致哿吮咎宓墓菇ü蹋⒍悦坎蕉甲隽讼晗傅姆治觯最后构建了园林树木领域的本体,并列出部分核心内容。面向园林树木领域的元搜索引擎系统的设计与实现。在系统的研究了本体论与搜索引擎两方面的知识后,为了验证在搜索引擎中引入本体论的可行性,本文实现了一个面向园林树木领域的元搜索引擎,并对系统的流程、主要模块进行了系统而且详细的关键词:园林树木、领域搜索引擎、本体论、元搜索引擎、语义关联度介绍;还设计了和传统通用搜索引擎的对比实验,并对实验产生的结果进行了分析和总结。兰州大学硕士研究生学位论文张鑫:基于本体论的领域元搜索引擎的研究与设计
.;’,.’琣;,.,:,兰州大学硕士研究生学位论文张鑫:基于本体论的领域元搜索引擎的研究与设计疭甀瑃瑃瓼;琫,珿
擅盘期:丝:尘:丝原创性声明所取得的成果。学位论文中凡引用他人已经发表或未发表的成果、数据、观点等,均已明确注明出处。除文中已经注明引用的内容外,不包含任何其本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研究他个人或集体己经发表或撰写过的科研成果。对本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名:
论文作者签名:建塞关于学位论文使用授权的声明本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时,第一署名单位仍然为兰州大学。保密论文在解密后应遵守此规定。导师签名:
第一章绪论研究背景随着互联网的发展,人们的生活越来越依赖于网络,系男畔⒁菜嬷缭觥根据中国互联网中心的第次中国互联网发展报告,截止年轮泄镜氖已达万个,,从年开始至今,收录的网页已达问题。目前,搜索引擎作为互联网中的基础应用已经成为人们获取所需信息的重要工具。展更为成熟的美国,搜索引擎的使用率高达%。因此,为了更好地为人们提供高质量的信息服务,搜索引擎已经成为工业界和学术界的研究热点。虽然通用搜索引擎,在一定程度上帮助用户解决了信息查找困难的问题,并取得了索引擎的目标就是抓取互联网上所有的网页,但是从现实看来实现这个目标是不可能的。我们就以为例,现在是全球最大的搜索引擎,它现在索引的网页超过了亿个,但是这还没有达到互联网网页总数的一半。其次还存在一个问题就是,互联网中网页数量不是静止不变的,是动态增长的。据有关组织统计,大概每隔天依照这个速度来更新它的索引库。再次,用户每次查询其实只是需要一个领域的信息,多无用功。为了解决以上几个问题,面向某个领域的专业搜索引擎发展起来,它只抓取虽然领域搜索引擎解决了通用搜索引擎具有的问题,但是使用搜索引擎的用户的知识水平是不同的。对于大部分的用户来说,他们并不能很熟练的应用搜索引擎,而且不的通用搜索引擎只是针对关键字的进行机械式的匹配,。面对互联网上的海量数据,如何快速有效地获得所需的信息成为人们不可忽视的据调查,在中国,,但是互联网的发展速度是飞速的,而且技术的发展也是飞快的。而通用搜就会有一半的网页失效。按照这个速度来看,即使是像这样的公司也是不可能而通用搜索引擎只会根据关键字的匹配,简单的返回数以千计的网页,据统计这其中只有很少的一部分网页对用户是有用的,在用户分拣这些信息时,会浪费很多时间,做很互联网中某种领域的网页