文档介绍:第 1 章绪论上海师范大学硕士学位论文
取,与较早的研究工作相比其具有较高的准确性。WISE-Integrator 的另一个研究
重点是查询结果模式抽取,查询结果记录的抽取以及对记录集合的标注,在这些
关键技术上的研究保证了系统能够最终将集成后的统一访问结果记录返回给用
户。
(5)斯坦福大学的 TSIMMIS 研究小组。TSIMMIS 是斯坦福大学和 IBM 的合
作项目。TSlMMIS 采用的是从局部到整体的映射关系来构建深层网络集成系统,
也就是用户在统一的查询接口提交查询后,不是直接到各个数据源进行查询,而
是首先分配到各个中介进行查询,通过中介到达各个独立的数据源。各个中介不
仅仅是简单的接口的集成,而且和每个独立的数据源一样具有查询能力。
TSIMMIS 的优势是提出了数据源能力的描述语言和基于异构数据源的中介执行
查询的算法。TSIMMIS 的不足体现在添加或删除一个数据源,中介的查询能力
需要重新计算,并且可能改变中介的内容和能力。
(6)微软亚洲研究院开发出一个学术搜索引擎 Libra 集成了多个在线文献库。
在此基础上挖掘出许多有用的信息,比如哪些是最重要的文献、哪些是最重要的
研究人员。当具体查询某个权威人士的时候,可以总结出他历年发表的论文和资
料。另外还可以列出此人的研究工作经历并反映出其在某领域是否活跃等。
目前在国内,对 Deep Web 数据源的搜索和集成还处于发展的起步阶段。中
国人民大学信息学院孟小峰教授领导的“网络与移动数据管理实验室”对 Deep
Web 数据集成系统的实现进行了深入的研究。他们以招聘信息查询为范例,开发
了一个“工作通”(JobTong)[4]原型系统,旨在通过对招聘信息集进行研究,总结出
一套 Web 数据集成的解决方案,包括产品、服务和研究等方面。JobTong 系统是
一个面向领域的 Deep Web 数据集成系统,其中应用了 Web 数据抽取和搜索引擎
等技术。苏州大学智能化信息处理研究所,在 Deep Web 数据源发现、数据源质
量评估、语义标注、数据抽取等方面有较为出色的研究,并设计实现了生物医药
领域的信息集成服务平台()。
分析现有的国内外 Deep Web 集成技术[5-6]可得出以下结论:1、现有的对 Deep
Web 数据的集成主要是对查询页面接口的集成,所涉及的关键技术主要有:查询
接口发现、查询接口模式抽取以及模式信息匹配等。这种集成方法所涉及的关键
技术不仅多而且复杂。2、现有的 Deep Web 数据库集成大多是对同一领域内结
构化数据的集成,也就是说用户在该查询接口只能查到与该领域相关的 Deep
Web 数据,而其他更多领域的 Deep Web 数据信息在该查询接口是查询不到的,
在查询方面具有很大的局限性。本文同时提出以下问题:1、在 Web 数据库选择
中如何描述 Web 数据库中包含的内容信息并以此对 Web 数据库进行分类。2、
如何对多领域的 Deep Web 数据源进行集成。3、如何从复杂的结果页面中抽取
4
万方数据
上海师范大学硕士学位论文第 1 章绪论
查询结果数据记录。由于 Deep Web 正处在热点研究领域,更多类似的问题还等
待国内外学者们进一步的研究,最终实现为用户提供一个透明的快速访问 Deep
Web 多数据源的高质量的数据服务。
本文研究内容
本文主要在现有集成技术的基础上提出了两种 Deep Web 数据库集成技术,
一种是基于实时查询的集成,另外一种是基于非实时查询的集成。本文着重介绍
了非实时查询的 Deep Web 数据库集成方案。非实时查询主要从获取数据源、数
据集成、非实时查询处理这三个方面进行研究,并进行了相关的方案设计和逻辑
结构设计;实时查询主要研究的是基于同义词林和知网对查询条件进行检索分类
以及根据阈值对 Deep Web 数据源选择的问题。
从大体上讲,本文的研究内容可以归纳为以下几个方面:
1、介绍 Deep Web 数据库集成技术的研究背景和意义,分析国内外研究现状并
指出存在的问题。
2、介绍 Web 数据库的特点、工作过程以及存在的异构性;对现有的 Deep Web
集成框架做简单介绍,并分析指出其不足的地方。
3、详细介绍了非实时查询Deep Web数据库集成技术的集成思想,并设计了Web
数据库集成的方案以及所涉及的表。
4、简要介绍了实时查询 Deep Web 数据库集成技术的集成思想,并对其中所运
用的分类和相似度算法做了详细描述。
5、将本文提出的两种集成技术与现有的 Web 数据库集成技术做对比,指出其优
点与不足,并对其以后的工作做了展望。