文档介绍:摘要中构建本体的一般步骤,然后研究了基于本体的网页信息采集检索系统的关键技术:���诒咎甯拍畈愦蔚膚�网页主题识别算法研究,主要利用改进的������户查询进行语义扩展,并赋予权重,通过扩展的关键词组计算网页相似度,按相似度大器访问���衿鳎�朐诵性趙�服务器上的�����薪换ァ����通过问句分析、最后,我们设计了几个实验,对不同层次概念的主题采集的精度,检索系统的精度和召回率,以及系统的运行效率等进行考察,进行了若干个实验进行验证,取得了良好关键词:本体;信息检索;面向主题;扩展查询随着互联网技术的迅猛发展以及网络信息的爆炸式增长,人们对信息检索的需求越来越强,���、百度等搜索引擎已经成为人们日常网络生活必不可少的信息搜索工具。而现实生活中网络用户对信息需求情况却不尽相同,有的用户会需要某一领域的大量信息,经加工整理后形成符合自己或者自己用户需求的资源,用来检索、数据挖掘,以及生成知识库等,数字图书馆、主题专业网站等信息服务机构就是从海量的��畔⒅�获取自己需要的信息,为自己的用户服务。本课题就是针对经常对某一领域进行信息获取的用户设计的基于领域本体的网络信息采集检索系统。在本文中,利用本体概念的层次性,提出了一个基于本体的文本主题识别和检索模型系统,该系统的功能模块主要分为三大部分,一是本体的构建,管理与存储;二是利用��莱婕际醵酝�辰�忻嫦蛑魈獾牟杉�蝗�切畔⑺饕�?椋��对采集的信息建立索引,通过对用户发送的提问进行预处理,实现基于本体的扩展查询,反馈高相关度的信息结果。本文首先介绍了本体和基于本体的信息检索的国内外研究现状,并介绍了本体研究法对���辰�忻嫦蛑魈獠杉��治隽巳绾瓮ü�咎甯拍罾词侗鹜�衬谌莺蚒�链接的主题相关度,如何将发现的��唇蛹尤氩杉�饕刀恿胁⑴判蚪�胁杉����岷螸���T醇际酰�圆杉�畔⒔�械古潘饕�话凑毡咎甯拍罴涞墓叵刀杂�小返回网页给用户,实现基于本体的扩展查询。接着,我们分析、设计、实现了一个面向主题的网络信息采集检索系统。该系统采用�疭架构,首先利用����玂��������咎逦募�成涞绞��库中。再利用采集器进行信息采集并保存到服务器,之后建立索引,然后通过网络浏览扩展查询、结果排序等步骤将最终结果返回给用户。的效果。实验结果证明了模型及系统的有效性。大连理工大学硕士学位论文����
.������������,�����������������������������������籈������籥�����.�������甒�基于领域本体的网页信息采集与检索研究������瑆����.�������.������,�����.����瑃����.�������.����琣���,����,���.����,������:����.��������’�����琩����疭����������甌�����.�����,���.
大连理��笱�妒垦�宦畚�������;�����������籘��—����;�������
作者签名:���≥、�海日期::俾独创性说明作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。
新躲立亟鱼尘作者签名:量兰��大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定���獯罅�砉ご笱ПA舨⑾蚬�矣泄夭棵呕蚧�顾�交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。大连理工大学硕士研究生学位论文
绪论个性化用户搜索引擎【�、智能搜索引掣�、元搜索引擎������研究的背景与意义引擎相继提出,在一定程度上解决了上述存在的问题,特别是专业搜索引擎的提出,满而将本体技术应用到信息检索中可以提高用户查询的精确性和召回率,实现了语义扩展�根据���中国互联网信息中心�臣票ǜ妫�刂����月�日,我国网民总人数达到���冢�肽昀雌骄�糠种泳托略鼋��个网民,半年的增长接近去年全年的增长量,互联网普及率也达到了�.�ィ欢�渲型�缧挛藕退阉饕�娴耐�袷褂帽�例已达�����%�緇】。由此可见,网络信息检索越来越成为现代人们工作生活的组成部分,而搜索引擎也逐渐成为人们在网上检索信息的重要工具。百度,���虶���等搜索引擎已经成为网络用户不可或缺的网络工具。但是,这些通用性搜索引擎也存在着一定的局限性,如:��煌�煊颉