文档介绍:并行计算——结构•算法•编程
第一篇并行计算的基础
第一章并行计算机系统及其结构模型
第二章当代并行机系统:SMP、MPP和Cluster
第三章并行计算性能评测
2017/11/10
1
现代密码学理论与实践之五
第二章当代并行机系统
共享存储多处理机系统
对称多处理机SMP结构特性
分布存储多计算机系统
大规模并行机MPP结构特性
机群系统
大规模并行处理系统MPP机群SP2
工作站机群COW
2017/11/10
2
现代密码学理论与实践之五
对称多处理机SMP(1)
SMP: 采用商用微处理器,通常有片上和片外Cache,基于总线连接,集中式共享存储,UMA结构
例子:SGI Power Challenge, DEC Alpha Server,Dawning 1
2017/11/10
3
现代密码学理论与实践之五
对称多处理机SMP(2)
优点
对称性
单地址空间,易编程性,动态负载平衡,无需显示数据分配
高速缓存及其一致性,数据局部性,硬件维持一致性
低通信延迟,Load/Store完成
问题
欠可靠,BUS,OS,SM
通信延迟(相对于CPU),竞争加剧
慢速增加的带宽(MB double/3年,IOB更慢)
不可扩放性---〉CC-NUMA
2017/11/10
4
现代密码学理论与实践之五
大规模并行机MPP
成百上千个处理器组成的大规模计算机系统,规模是变化的。
NORMA结构,高带宽低延迟定制互连。
可扩放性:Mem, I/O,平衡设计
系统成本:商用处理器,相对稳定的结构,SMP,分布
通用性和可用性:不同的应用,PVM,MPI,交互,批处理,互连对用户透明,单一系统映象,故障
通信要求
存储器和I/O能力
例子:Intel Option Red
IBM SP2 Dawning 1000
2017/11/10
5
现代密码学理论与实践之五
典型MPP系统特性比较
MPP模型
Intel/Sandia ASCI Option Red
IBM SP2
SGI/Cray Origin2000
一个大型样机的配置
9072个处理器,(NSL)
400个处理器,100Gflop/s()
128个处理器,51Gflop/s(NCSA)
问世日期
1996年12月
1994年9月
1996年10月
处理器类型
200MHz, 200Mflop/s Pentium Pro
67MHz,267Mflop/s POWER2
200MHz,400Mflop/s MIPS R10000
节点体系结构
和数据存储器
2个处理器,32到256MB主存,共享磁盘
1个处理器,64MB到2GB本地主存,
2个处理器,64MB到256MB分布共享主存和共享磁盘
互连网络和主存模型
分离两维网孔,NORMA
多级网络,NORMA
-NUMA
节点操作系统
轻量级内核(LWK)
完全AIX(IBM UNIX)
微内核Cellular IRIX
自然编程机制
基于PUMA Portals的MPI
MPI和PVM
Power C, Power Fortran
其他编程模型
Nx,PVM,HPF
HPF,Linda
MPI,PVM
2017/11/10
6
现代密码学理论与实践之五
MPP所用的高性能CPU特性比较
属性
Pentium Pro
PowerPC 602
Alpha 21164A
Ultra SPARC II
MIPS R10000
工艺
BiCMOS
CMOS
CMOS
CMOS
CMOS
晶体管数
7M
时钟频率
150MHz
133MHz
417MHz
200MHz
200MHz
电压
功率
20W
30W
20W
28W
30W
字长
32位
64位
64位
64位
64位
I/O
高速缓存
8KB/8KB
32KB/32KB
8KB/8KB
16KB/16KB
32KB/32KB
2级
高速缓存
256KB
(多芯片模块)
1~128MB
(片外)
96KB
(片上)
16MB
(片外)
16MB
(片外)
执行单元
5个单元
6个单元
4个单元
9个单元
5个单元
超标量
3路(Way)
4路
4路
4路
4路
流水线深度
14级
4~8