文档介绍:取,与较早的研究工作相比其具有较高的准确性。WISE-Integrator的另一个研究重点是查询结果模式抽取,查询结果记录的抽取以及对记录集合的标注,在这些关键技术上的研究保证了系统能够最终将集成后的统一访问结果记录返回给用户。斯坦福大学的TSIMMIS研究小组。TSIMMIS是斯坦福大学和IBM的合作项目。TSIMMIS采用的是从局部到整体的映射关系来构建深层网络集成系统,也就是用户在统一的查询接口提交查询后,不是直接到各个数据源进行查询,而是首先分配到各个中介进行查询,通过中介到达各个独立的数据源。各个中介不仅仅是简单的接口的集成,而H和每个独立的数据源一样具有查询能力。TSIMMIS的优势是提出了数据源能力的描述语言和基于异构数据源的屮介执行查询的算法。TSIMMIS的不足体现在添加或删除一个数据源,中介的查询能力需要重新计算,并且可能改变中介的内容和能力。微软亚洲研究院开发出一个学术搜索引擎Libra集成了多个在线文献库。在此基础上挖掘出许多有用的信息,比如哪些是最重要的文献、哪些是最重要的研究人员。当具体查询某个权威人士的吋候,可以总结出他历年发表的论文和资料。另外还可以列出此人的研究工作经历并反映出其在某领域是否活跃等。目前在国内,对DeepWeb数据源的搜索和集成述处于发展的起步阶段。中国人民大学信息学院孟小峰教授领导的“网络与移动数据管理实验室'‘对DeepWeb数据集成系统的实现进行了深入的研究。他们以招聘信息查询为范例,开发了一个“工作通"(JobTong)141原型系统,旨在通过对招聘信息集进行研究,总结出一套Web数据集成的解决方案,包括产品、服务和研究等方面。JobTong系统是一个面向领域的DeepWeb数据集成系统,其中应用了Web数据抽取和搜索引擎等技术。苏州大学智能化信息处理研究所,在DeepWeb数据源发现、数据源质量评估、语义标注、数据抽取等方面有较为岀色的研究,并设计实现了生物医药领域的信息集成服务平台(hg//)。分析现有的国内外DeepWeb集成技术〔网可得岀以下结论:1、现有的对DeepWeb数据的集成主要是对查询页而接口的集成,所涉及的关键技术主要有:查询接口发现、查询接口模式抽取以及模式信息匹配等。这种集成方法所涉及的关键技术不仅多而且复杂。2、现有的DeepWeb数据库集成大多是对同一领域内结构化数据的集成,也就是说用户在该查询接口只能查到与该领域相关的DeepWeb数据,而其他更多领域的DeepWeb数据信息在该查询接口是查询不到的,在查询方面具有很大的局限性。本文同时提出以下问题:1、在Web数据库选择中如何描述Web数据库中包含的内容信息并以此对Web数据库进行分类。2、如何对多领域的DeepWeb数据源进行集成。3、如何从复杂的结果页面中抽取4查询结果数据记录。由于DeepWeb正处在热点研究领域,更多类似的问题还等待国内外学者们进一步的研究,最终实现为用户提供一个透明的快速访问DeepWeb多数据源的高质量的数据服务。,一种是基于实时查询的集成,另外一种是基于非实时查询的集成。木文着重介绍了非实吋查询的DeepWeb数据库集成方案。非实口寸查询主要从获取数据源、数据集成、非实时查询处理这三个方面进行硏究,并进行了相关的方案设计和逻辑结构设计;实时查询主要研究的是基于同义词林和知网对查询条件进行检索分类以及根据阈值对DeepWeb数据源选择的问题。从大体上讲,本文的研究内容可以归纳为以下几个方面:1、 介绍DeepWeb数据库集成技术的研究背景和意义,分析国内外研究现状并指岀存在的问题。2、 介绍Web数据库的特点、工作过程以及存在的异构性;对现有的DeepWeb集成框架做简单介绍,并分析指出其不足的地方。3、 详细介绍了非实时查询DeepWeb数据库集成技术的集成思想,并设计了Web数据库集成的方案以及所涉及的表。4、 简要介绍了实时查询DeepWeb数据库集成技术的集成思想,并对其中所运用的分类和相似度算法做了详细描述。5、 将本文提出的两种集成技术与现有的Web数据库集成技术做对比,指出其优点与不足,并对其以后的工作做了展望。:1、 从集成领域上讲,木文集成的是涵盖所有领域的数据,并不是单一的某一领域的数据。2、 木文提出的非实时查询DeepWeb集成技术,将客户端所有异构的数据源以统一的存储模式存储,解决了异构数据源集成的关键问题。:第一章绪论,交代论文的研究背景和意义、国内外研究现状以及木文所硏究的主要内容和创新点。第二章DeepWeb相关知识介绍,介绍Web数据库的概念和工作原理,以及Web