文档介绍:西安电子科技大学
硕士学位论文
基于本体的Web信息检索系统及其关键技术研究
姓名:秦春秀
申请学位级别:硕士
专业:情报学
指导教师:赵捧未
20050101
摘要本体标注用户提问和自动收集用户查询历史纪录,构建用户兴趣模型,从而有效为解决上同益严重的“信息过载”和“信息迷航”问题,智能信息检索和个性化信息服务成为目前信息服务研究的重点。设计合理的智能信息检索系统,基于语义层面表示和组织信息,建立个性化用户兴趣模型,是实现智能信息检索和个性化服务的基础。本文在回顾这方面的研究现状的基础上,提出一种基于本体和多智能的智能畔⒓焖飨低常鏊奶逑到峁埂⒒竟δ芎凸ぷ髁鞒獭8孟低忱用本体技术和智能际醵訧系母骼嘈畔⒔辛煊蚍掷啵捎帽咎寮术对信息进行语义标引,规范用。信息检索模式,支持个性化信息检索,以达到快速、准确地找到用户所需信息的目的,另外,系统集成了多种智能缛务识别⑿畔⑹占痑、信息处理龋沟酶孟低尘哂辛撕芏嘈碌奶点和优点。给出了一种基于领域本体的语义标引方法,即通过语义分析,建立词汇集合与本体中概念之间的映射关系,然后通过自动词语分析找出文档或文档片断的概念类别及其与其它类别的语义关系,利用这些概念及概念类别进行语义标引。在处理用户查询时,采用概念的同义词表可提高信息检索的查全率,采用上下文语义去除相关度不大的歧义概念,在一定程度上保证信息检索的查准率。通过采用提高搜索的准确性,实现用户的个性化查询。关键字:本体畔⒓焖飨低秤镆灞暌查询扩展用户兴趣模型
、吖“”‘’.,.,..、皊..甧‘、.、⒁籥築,甧‘
襁一本人签名:燮本学位论文属于保密在一年解密后适用本授权书。『、护≯。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人己经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。日期本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。C艿穆畚脑诮饷芎笞袷卮斯娑本人签名导师签名日期:声明
第一章绪论研究背景及意义南肿醇靶畔⒆试吹奶氐随着疘目焖俜⒄褂爰扑慊钠占埃颐且丫肓送缧畔时代。信息的发布与共享不再受时空的限制,网络资源按以指数规律快速增长,特别是姆伤俜⒄梗笽网络成为全球最大的分布式信息库,为用户提供了一个侠速方便的资源共享和信息共享的平台和前所未有的应用前景与开劈海当网络规模越来越大,信息越来越多时,信息的查找和获取也变得越来越困难。对于每个纳秒都在扩张的知识资源,人们面临着如何获取和消化的烦恼,而且无用信息和有害信息无处不在。很多时候,面对庞大的信息资源,人们感到无所适从,迷失在这张巨大的信息网中。“信息过载”和“信息迷航”已经成为人们谈论最多的话题之一】。如何迅速、高效地检索和访问各领域的信息资源以促进信息的交流与共享已经成为一个重要的急需解决的问题。人们迫切需要高效、准确的信息查找工具。来快速定位自己的感兴趣的信息和知识,现有的网络信息检索技术还很难满足这种要求,因此研究开发具有语义理解能力的功能强大、覆盖面广、接口友好、智能检索系统已成为当务之急。由于的开放性,系男畔⑹羌榷嘤止悖伤饕耐秤惺谝上,数据量则超过几十。概括地说,与传统的信息资源相比,畔⒆试具有以下显著的特点:①动态筮数据和服务的种类每天都在大量增加、更新,系氖菔笨檀τ诒浠中,新的页面在不断出现,旧的页面在不断更新和删除。母葱网络信息分铂在几百万台服务器上,不仪数掂荣晰辔逖矗煌网站之恻存在人量相同的期页引用。③半结构化或无结构化.”‘”●
男畔⒓焖鞴ぞ系男畔⑼ǔJ俏拮橹模痪哂泄叵凳菘庵惺莸慕峁够匦裕者只有有限的结构化特性,这就使得索引起来非常困难,更不用说要计算机能理解其语义信息了。④非规范化人人都可以在网上发布信息,信息杂乱无章,不仅有很多的拼写错误和自定义用词,而且信息的质量得不到保证,存在着不稳定性和不可靠性。⑤异构性信息分布在不同的平台上,站点结构各异,通过不同的协议鏣/、等ハ嗔樱畔⒔峁剐问揭哺鞑幌嗤嘤镏帧⒍嗬嘈偷男畔⒔恢一起,杂乱无序。畔⒌恼庑┨氐阋G笪颐潜匦朐诖车男畔⒓焖骷际醯幕∩希眉算机网络技术、人工智能