文档介绍:广西师范大学
硕士学位论文
基于本体的旅游领域Deep Web查询接口集成
姓名:张红
申请学位级别:硕士
专业:计算机软件与理论
指导教师:蒋运承
20090401
广西师范大学硕士研究生学位论文
基于本体的旅游领域Deep Web查询接口集成
研究生姓名:张红导师姓名:蒋运承教授
学科专业:计算机软件与理论研究方向:语义Web Deep Web 年级:2006
摘要
随着 与网络技术的迅猛发展,万维网上的信息以海量方式增长,然而我们却
不能快速而准确获取有效的信息。因为这些信息大多隐藏在深网里,需要通过查询接口在
线访问后台数据库,而且在深网里,这些数据不仅以指数增长,还存在异构性和动态性。
传统的搜索引擎只能进行静态页面的搜索,不能满足这一要求,因此 Deep Web 的数据集
成成为目前研究的热点之一。
目前针对 Deep Web 数据集成的研究有 Stanford 大学 Raghavan 和 Garcia-Molina 的
HiWE 研究小组、Colombia 大学 Panagiotis 等人的 Qprober 研究小组和电子商务
集成系统 Wise-Integrator 以及人民大学孟小峰教授带领的研究小组。本文针对 Deep Web
数据集成的国内外研究现状,提出了基于本体的旅游领域 Deep Web 查询接口集成的架构,
并给出 Deep Web 数据集成中数据源的发现和分类的相应算法。本文主要工作和创新如下:
第一,介绍了 Deep Web 数据集成的国内外研究现状,提出了基于本体的旅游领域 Deep
Web 查询接口集成的架构。
第二,建立了旅游领域的本体知识树,将 Deep Web 数据源查询接口的查找与领域的
分类合并成基于领域的 Deep Web 数据源发现,并以旅游领域 Web 页面为例,首先利用
NekoHTML 对网页进行规范化,然后通过启发式规则将表单去噪,再在大量观察了接口的
特征及充分利用了中文特点设计了相应的启发式规则及利用 DOM 接口自动将 html 代码转
换成拥有我们需要的数据源特征的 DOM 树,与本体知识树匹配,找到领域的 Deep Web
数据源查询接口,从中提取 form 表单。最后用实验进行验证,表明该方法对实现领域 Deep
Web 数据源集成的半自动化、自动化有较强的现实意义。
第三,阐述了 Deep Web 数据源查询接口的分类问题。根据 Deep Web 数据源小样本、
高维特征以及中文语义特点,本文首先将 Deep Web 数据源查询接口形式化表达出来,并
转化成向量模型;接着利用粒子群算法对其进行优化提取特征向量,并设计将接口的 147
维向量集合模型转化为 15 维向量集合模型,最后转化为二维向量模型;最后,在 MATLAB
上进行仿真实验,对 Deep Web 数据源查询接口分类的三种方法进行了对比,得出降维后
和不降维数据源的分类不受明显影响,但降维能节约计算机的计算量,用 svc 分类比用 knn
分类效果好。
总之,Deep Web 查询接口集成技术为尚处于起步阶段,国内有了实验原型,但诸多关
键技术细节实现尚需要深入探索,与具体应用阶段相距甚远。本文下一步的工作是研究发
现隐蔽的查询接口,改进 Deep Web 查询接口分类的算法。
关键词:深度网络;本体知识树;数据源发现;查询接口分类
I
广西师范大学硕士研究生学位论文
Ontology-based Tourism Deep Web Interface Integration
Author: Zhang Hong Supervisor: Professor YunCheng Jiang Grade:2006
Major: Computer Software and Theory Research: Semantic Web Deep Web
Abstract
With the rapid development of the and work technology, the information of
the World Wide Web goes up massively , however, we can not quickly and accurately obtain the
effective information. Because most of the information is hidden in the Deep Web, the back-end
database is t