1 / 17
文档名称:

DeepWeb数据集成研究综述.doc

格式:doc   大小:725KB   页数:17
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

DeepWeb数据集成研究综述.doc

上传人:daoqqzhuanyongyou2 2017/6/18 文件大小:725 KB

下载得到文件列表

DeepWeb数据集成研究综述.doc

相关文档

文档介绍

文档介绍:Deep Web 数据集成问题研究刘伟( Web 组) 孟小峰孟卫一摘要: 随着 World Wide Web ( WWW )的飞速发展, Deep Web 中蕴含了海量的可供访问的信息,并且还在迅速的增长。这些信息要通过查询接口在线访问其后端的 Web 数据库。尽管丰富的信息蕴藏在 Deep Web 中, 由于 Deep Web 数据的异构性和动态性,有效地把这些信息加以利用是一件十分挑战性的工作。 Deep Web 数据集成至今仍然是一个新兴的研究领域,其中包含有若干需要解决的问题。总体来看,在该领域已经开展了大量的研究工作,但各个方面发展并不均衡。本文提出了一个 Deep Web 数据集成的系统架构,依据这个系统架构对 Deep Web 数据集成领域中若干关键研究问题的现状进行了回顾总结,并对未来的研究发展方向作了较为深入的探讨分析。 1 、引言随着 World Wide Web 的飞速发展, 其中蕴含了海量的信息可供我们利用。根据文献[1] 最新的调查, 目前整个 Web 超过了 200,000TB 的信息量, 而且仍在快速的增长。在 Web 领域的研究目的在于发展新的技术可以有效地从 Web 中获取有用的信息。 Web 中的信息主要通过网页的形式对外发布, 而由文本和超链接构成的网页有其独特之处: 数量惊人, 信息丰富; 由不同的个人或群体开发, 形式与内容有很大的差异; 分布在地球上 连接的每一个角落,这就造成了 Web 数据的异质性和缺乏结构性。正是由于这个原因,使得自动地从中获取有价值的信息和数据变成一件十分具有挑战性的任务。到目前为止, 为了有效地利用 Web 上的信息, 所采用的方法涉及了广泛的领域: 数据挖掘、机器学习、自然语言处理、统计分析、数据库和信息检索等。整个 Web 看似杂乱无章,但如果按其所蕴涵信息的“深度”可以划分为 Surface We b 和 Deep Web 两大部分。 Surface Web 是指通过超链接可以被传统搜索引擎索引到的页面的集合。在现实中,有大约 % 的页面由于缺乏被指向的超链接而没有被搜索引擎索引到,我们把这一部分页面也看作是 Surface Web 的范畴。而对于 Deep Web ,目前还没有一个统一的定义, 文献[2] 中认为 Deep Web 是指 Web 中不能被传统的搜索引擎索引到的那部分内容, 特别是指那些通过查询实时产生的动态页面, 但随着搜索引擎爬虫( Crawler ) 能力的增强, 使得 Deep Web 这一概念变得复杂不易界定,很难给出一个可以长期一致认同的定义。图 1从 Web 数据库中获取数据的过程在这里我们试图对 Deep Web 的范畴给出一个较为完整的描述: Deep Web 是指 Web 中可访问的在线数据库,这里简称为 Web 数据库或 WDB ,其内容存储在真正的数据库中。这些内容只有在被查询时才会由 Web 服务器动态生成页面把结果返回给访问者(图1), 因此没有超链接指向这些页面, 这是和那些可以被直接访问的静态页面的根本区别。按照存储信息的结构化程度可以进一步划分为结构化信息、文档信息和非文本文件, 网上购物网站存储的信息属于结构化信息, 新闻网站存储的信息属于文档信息, 二者因结构化程度的不同对其查询所应用的技术也差别很大, 而非文本文件, 主要包括多媒体文件、图像文件、软件和特定格式的文档(比如 PDF 文件) 。在一般的意义下,我们对 Deep Web 信息的获取更关注的是对结构化信息的获取, 而不是文档或非文本文件。其原因不难理解, 对结构化数据的集成更有意义,可以采用的技术也更丰富。 Deep Web 数据集成也主要是指对结构化信息的集成。随着 Web 相关技术的日益成熟和 Deep Web 所蕴含信息量的快速增长,通过对 Web 数据库的访问逐渐成为获取信息的主要手段,而对 Deep We b 的研究也越来越受到人们的关注。与 Surface Web 相比, Deep Web 蕴藏了更加丰富, 更加“专业”( 专注于某一领域) 的信息。在 2000 年7月,B 对 Deep Web 做了一次较为全面的宏观统计, 发布了 Deep Web 的白皮书 1 (在该文中 B 对 Deep Web 的定义主要指的是 Web 数据库) ,指出整个 Web 上大约有 43,000-96,000 个 Web 数据库, 并从宏观上对 Deep Web 做了定量的调查统计, 下面列出其中部分的调查结果:  Deep Web 蕴含的信息量是 Surface Web 的 400-500 倍。对 Deep Web 数据的访问量比 Surface Web 要高出 15% 。 Deep Web 蕴含的信息量比 Surfa