文档介绍：分类号 TP3 密级
UDC 编号

中国科学院研究生院
硕士学位论文

基于千核集群的pFind加速技术研究
王文平

指导教师贺思敏研究员

中国科学院计算技术研究所

申请学位级别工学硕士学科专业名称计算机系统结构

论文提交日期 2010 年 5 月论文答辩日期 2010 年 5月

培养单位中国科学院计算技术研究所

学位授予单位中国科学院研究生院

答辩委员会主席
声明

我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成
果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含
其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做
的任何贡献均已在论文中作了明确的说明并表示了谢意。

作者签名: 日期:

论文版权使用授权书

本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机
构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本
论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或
扫描等复制手段保存、汇编本论文。
(保密论文在解密后适用本授权书。)

作者签名: 导师签名: 日期:
摘要
利用质谱数据搜索蛋白质序列数据库是当前最常用的规模化蛋白质鉴定方法。面对
海量质谱数据、不断增大的蛋白质数据库以及翻译后修饰所共同带来的大规模计算需
求,并行计算能够在对鉴定精度无影响的前提下对数据库搜索起到绝对加速的效果,因
此成为蛋白质序列数据库搜索的主流加速方法。在高性能并行计算中,关键技术在于优
化节点内的计算效率,节点间的负载均衡和通信效率,以获得并行系统的高性能。

本文在 pFind 单机版的基础上,通过对 pFind 引擎内部各个模块的热点进行了深入
的分析,建立了针对 pFind 引擎内核的运行时间预测模型,并由此在基于主从模式的并
行架构下设计出动态调度和静态调度两种算法,在多个不同数据集和不同集群环境的百
核规模测试中都达到了近似线性的高效加速。

随着处理器核数从 96 增加到 320,pFind 并行系统在 Ruedi 数据集上出现了加速比
的严重下降,主要原因在于主从节点的 I/O 太多导致加速比的下降。为了能够在大规模
集群上取得高效加速,我们进一步实现了多级主从模式来减少 I/O。我们分别对两个数
据集进行了大规模集群下的加速比实验,均取得了较好的加速性能:在 512 核规模下,
Ruedi 数据集(包括 190,711 张串联质谱)的加速比为 ,加速效率达到 %;
在 1,024 核规模下,SIBS 磷酸化数据集(包括 1,366,609 张串联质谱)的加速比为 ,
加速效率达到 %。

到目前为止,pFind 并行版已经成为本实验室进行大规模数据分析的主流平台,同
时已经成功安装部署到台上。最为重要的是,在并行系统的强有力支持
下,pFind 研究组在 ABRF iPRG 2010 年的国际评测中表现得非常出色。

关键词

中国科学院研究生院 硕士学位论文.pdf

中国科学院研究生院 硕士学位论文.pdf

中国科学院研究生院硕士学位论文.pdf

中国科学院研究生院硕士学位论文.pdf