文档介绍:并行数据库
第1页,本讲稿共44页
内容提要
并行数据库概述
1
并行数据库的体系结构
2
并行查询处理技术
3
并行数据库的物理组织
4
*
第2页,本讲稿共44页
并处理器通过高速通讯网络与共享内存连接,并均可直接访问系统中的一个、多个或全部的磁盘存储,在系统中,所有的内存和磁盘存储均由多个处理器共享。SM结构如上图所示。
p
…
互 联 网 络
共 享 存 储 器
磁盘
磁盘
磁盘
p
p
…
…
SM并行结构:
*
第12页,本讲稿共44页
共享内存并行结构(续)
SM结构优点:
★实现简单。在该结构中,共同执行一条SQL语句的多个数据库构件通过共享内存来交换消息与数据。
★负载均衡。数据库中的数据划分在多个局部磁盘上,并可以为所有处理机访问。这种系统可以基于实际负载来给各处理机动态地分配任务,因而可以很好地实现负载均衡。
*
第13页,本讲稿共44页
SM结构缺点:
★ 处理器的规模不能超过32个或者64个,因为总线或互联网络是由所有的处理器共享,它会变成瓶颈,可扩充性较差。
★ 内存的任何错误都将影响到多个处理机,可用性不是很好。
共享内存结构通常在每个处理器上有很大的高速缓存,从而减少对内存的访问。但是,这些高速缓存必须保持一致,也就是缓存一致性(cache-coherency)的问题。
*
第14页,本讲稿共44页
共享磁盘并行结构
SD并行结构:
该结构由多个具有独立内存(主存储器)的处理器和多个磁盘存储构成,各个处理器相互之间没有任何直接的信息和数据的交换,多个处理器和磁盘存储由高速通信网络连接,每个处理器都可以读写全部的磁盘存储。
互 联 网 络
存储器
处理机
磁盘
磁盘
存储器
处理机
处理机
磁盘
…
…
…
存储器
*
第15页,本讲稿共44页
共享磁盘并行结构(续)
共享磁盘与共享内存结构相比
SD结构优点:
★ 每个处理器都有自己的存储器,存储总线不再是瓶颈;
★ 以一种较经济的方式提供了容错性,如果一个处理器发生故障,其它处理器可以代替工作。
*
第16页,本讲稿共44页
SD结构缺点:
★ 实现起来复杂。由于共享磁盘方案无共享内存。因此,数据拷贝被分配到各自的高速缓冲区。为了避免对同一磁盘页的访问冲突,需要对并发访问进行全局控制与管理,并保持数据的一致性。
★ 存在潜在的性能问题。维护数据一致性带来额外的通信开 销,此外对共享磁盘的访问是潜在的“瓶颈”。
*
第17页,本讲稿共44页
无共享资源结构
SN结构:
互 联 网 络
存储器
处理机
磁盘
存储器
处理机
磁盘
存储器
处理机
磁盘
…
…
…
该结构由多个完全独立的处理节点构成,每个处理节点具有自己独立的处理器、独立的内存(主存储器)和独立的磁盘存储,多个处理节点在处理器级由高速通信网络连接,系统中的各个处理器使用自己的内存独立地处理自己的数据。
*
第18页,本讲稿共44页
无共享资源结构(续)
SN结构优点:
每一个处理节点就是一个小型的数据库系统,多个节点一起构成整个的分布式的并行数据库系统。
由于每个处理器使用自己的资源处理自己的数据,不存在内存和磁盘的争用,提高的整体性能。
另外这种结构具有优良的可扩展性——只需增加额外的处理节点,就可以以接近线性的比例增加系统的处理能力。
*
第19页,本讲稿共44页
SN结构缺点:
★ 实现复杂,只是根据数据的物理位置而不是系统的实际负载来分配任务。
★ 负荷难以均衡,系统中新结点的加入将导致重新组织数据库以均衡负载
*
第20页,本讲稿共44页
三种并行结构比较
下面对以上三种并行结构从性能、可用性和可扩充性等方面比较。
共享内存
共享磁盘
无共享资源
性能
最佳
较佳
较佳
可用性
低
较高
高
可扩充性
差
较好
好
负载均衡
易做到
易做到
难做到
实现技术
容易
较复杂
复杂
成本
高
较低
低
处理机数
数十个
数百个
数千个
规模
中小系统
中小系统
大系统
*
第21页,本讲稿共44页
三、并行查询处理技术
首先,介绍并行数据库系统中关于并行查询处理的一些概念。
并行执行计划(简称PP):对应于传统的顺序查询处理计划 (简称SP),相应于并行处理环境下的执行计划。
并行化方案:如果查询Q的某个并行执行计划PP与Q的一个顺