1 / 93
文档名称:

2013-第3次课-新一代数据库系统 -2-Deep Web 集成与查询new.ppt

格式:ppt   页数:93
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

2013-第3次课-新一代数据库系统 -2-Deep Web 集成与查询new.ppt

上传人:用户头像没有 2014/10/8 文件大小:0 KB

下载得到文件列表

2013-第3次课-新一代数据库系统 -2-Deep Web 集成与查询new.ppt

文档介绍

文档介绍:第 4 章 Deep Web 集成查询研究
主要内容
深层网络基本概念
深层网络数据集成策略与方法
深层网络数据查询策略与方法
深层网络发展趋势
深层网络基本概念
深层网络实例-带有表单的机票预定系统
第4章 Deep Web 数据集成研究
深层网络基本概念
深层网络实例-当当网图书搜索系统
第4章 Deep Web 数据集成研究
存在大量的页面是由后台数据库动态产生的,
这些页面不能通过静态链接直接获取,只能通过填写表单提交
查询方式来获取。传统的蜘蛛程序(Crawler)由于技术和其它
原因,不能抓取这些页面,导致这部分信息对用户是隐藏、不
可见的,称为Deep Web(深层网络)
第4章 Deep Web 数据集成研究
深层网络基本概念
深层网络(Deep Web)
对Deep Web的研究具有重要意义,Deep Web中包含的信息
是网络蜘蛛程序能够访问的Surface Web的500倍,Deep Web中蕴
涵的信息比Source Web质量更高、更专业,Deep Web数据量的增
长速度远大于Surface Web,Deep Web上95%的信息是可以公开访
问的,Deep Web中大量的信息是结构化的数据信息。因此有效地
利用Deep Web中丰富的信息,向用户提供针对Deep Web中多数据
源一致的查询接口,即研究Deep Web数据集成方法成为当前重要
的方向之一。
深层网络基本概念
研究意义
第4章 Deep Web 数据集成研究
我们对航空订票、图书销售、汽车销售等行业226个数据源
进行比较分析,发现这些数据源的数据主要以三种形式存在:
纯数据库数据、以XML形式存在的数据、通过网页获取的数据
库数据。其中通过网页获取的关系数据库数据150个(也称为深
层网络数据,Deep Web Data),%对这些数
据的有效利用具有重要的意义。
DeepWeb研究的背景
深层网络基本概念
第4章 Deep Web 数据集成研究
深层网络基本概念
视图
视图
数据库
数据库
深层网络实际结构
网络蜘蛛只能爬到表单上,
到不了其后面的数据库
网络蜘蛛只能爬到表单上,
到不了其后面的数据库
第4章 Deep Web 数据集成研究
深层网络基本概念
视图
视图
数据库
数据库
深层网络集成
第4章 Deep Web 数据集成研究
局部
模式
局部
模式
全局模式
(中间模式)
集成