文档介绍：计算流体力学讲义2011
第13讲 MPI并行程序设计(1)
李新亮
******@imech. ;力学所主楼219; 82543801
知识点:
MPI程序的运行机制——拷贝N份,给每个进程一份
MPI的基本库函数——6个库函数
“对等式”编程方法——站在单个进程的角度思考
1
讲义、课件上传至 (流体中文网) -> “流体论坛”->“ CFD基础理论”
Copyright by Li Xinliang
Copyright by Li Xinliang
2
Part 1: 基本概念及MPI并行编程入门
并行计算基本概念
MPI并行编程入门
1)MPI 简介
2)MPI 的基本函数及消息传递
3)MPI的常用函数
4)对等式编程思想的举例说明——全收集、矩阵相乘
一、基本概念
并行计算机简介
大规模并行计算——超级计算(puting)/高性能计算(HPC)
为何需要超级计算?
应用领域的巨大计算需求
单CPU的计算能力有限
应用对计算资源的需求
3
Copyright by Li Xinliang
● CFD的计算资源依赖性

计算量大——流动的多尺度性(湍流)
大飞机全部流动细节完全分辨:
最小尺度:mm~ mm 量级;
计算网格: 1012-1016 ; 需计算量: ~ 1020-30 ;
工程需求: 8个小时之内完成计算
预计: LES: 2045年; DNS: 2080年
最大尺度~ m
mm
几种我们常见的并行计算机
CPU
CPU
CPU
…
总线或交叉开关
Memory
(a) SMP, 物理上单一地址空间
CPU
CPU
CPU
…
定制网络
LM
LM
LM
虚拟分布共享存储(DSM)
(b) DSM, 逻辑上单一地址空间
P/C
P/C
P/C
…
定制/标准网络
LM
LM
LM
(c) Cluster/COW, 物理/逻辑上多地址空间
SMP
MPP
MPP
…
WAN
LM
DSM
SM
(d) Grid (Cluster of Clusters)
并行计算机体系结构
5
Copyright by Li Xinliang
内存带宽瓶颈
访存冲突机制控制复杂
虚拟共享存储“NUMA”
访存冲突机制控制复杂
克服了访存冲突及内存瓶颈
访存的局部性——对网络要求不严
各系统的性能
2100
2100
2100
2100
2100
2100
2100
2100
2100
单处理器
共享存储
局域并行机群
广域并行机群
GFLOPS
6
Copyright by Li Xinliang
低价格
可扩展
自行搭建的简易机群
7
Copyright by Li Xinliang
并行机群: 搭建简单——简单的局域网
并行机群= 局域网
早期作者搭建的简易机群
机群软件:Linux/Windows; 套件OSCAR; , ……
我国最早搭建的机群: LSEC 张林波搭建的32节点机
Copyright by Li Xinliang
8
美洲虎/1700万亿次
曙光5000A/160万亿次
天河1号千万亿次
CPU+GPU混合系统
联想深腾7000/106万亿次
单精度千万亿次的
GPU系统 Mole-xx
顶级的超级计算机
目标: 每秒 1摩尔次浮点运算
(1 mole=*1023)
Copyright by Li Xinliang
9
1
National puting Center in TianjinChina
Tianhe-1A - NUDT TH MPP, X5670 6C, NVIDIA GPU, FT-1000 8C / 2010NUDT
186368

2
DOE/SC/Oak Ridge National LaboratoryUnited States
Jaguar - Cray XT5-HE Opteron 6-core GHz / 2009Cray Inc.
224162

3
National puting Centre in Shenzhen (NSCS)China
Nebulae - Dawning TC3600 Blade, Intel X5650, NVidia Tesla C2050 GPU / 2010Dawning
120640

2