文档介绍:国防科学技术大学
博士学位论文
并行计算可扩展性分析与优化——能耗、可靠性与计算性能
姓名:王之元
申请学位级别:博士
专业:计算机科学与技术
指导教师:杨学军
2011-03
国防科学技术大学研究生院博士学位论文
摘要
并行计算是提高计算机系统性能的主要手段,然而随着系统规模的扩大,系
统结构日益复杂,编程、存储、能耗和可靠性等问题大量涌现,它们均在不同程
度上制约了并行计算的可扩展性。可扩展性的概念得到了进一步的发展,其内涵
从单一的以提高计算性能为目标逐渐演变为权衡多种要素关系的综合性问题。因
此,需对其重新审视和研究。
本文主要研究能耗与并行计算可扩展性以及可靠性与并行计算可扩展性的关
系,即能耗可扩展性和可靠可扩展性问题,为此文中分能耗篇和可靠性篇分别针
对这两种可扩展性问题进行研究。
在能耗篇中,主要工作体现在:
1. 提出了能耗可扩展性模型(第二章)
度量模型是研究可扩展性问题的基础。文中基于加速比模型,考虑能耗
与计算性能之间的关系,分别针对能量消耗有效性及能耗增长与性能增长之
间的匹配程度建立度量模型,即能效加速比和能耗性能率模型。前者是能耗
可扩展性的有效度量,后者关注能耗与性能的增长关系,将并行计算系统分
类为红色可扩展系统、黄色可扩展系统和绿色可扩展系统。
2. 提出了能耗墙理论(第三章)
当前,国际上对于“能耗墙”还未有一个统一的认识,尤其是其内涵及
量化等均未有研究。本文提出的能耗墙是并行计算能耗可扩展程度的量化。
文章基于能效加速比模型,提出能耗墙理论并给出相应的证明。进而分析红
色可扩展系统、黄色可扩展系统和绿色可扩展系统与能耗墙之间的关系,并
证明红色可扩展系统始终存在能耗墙,而黄色和绿色可扩展系统不存在能耗
墙。
3. 提出了网络动态能耗优化技术(第四章)
能耗墙理论指出,网络能耗是造成能耗墙存在的主要因素之一,它包括
静态能耗和动态能耗两部分。本文主要针对网络中动态能耗进行优化,提出
了网络系统累加原理,建立基于任务布局的网络动态能耗优化模型。实验表
明,该方法能够有效降低网络中的动态能耗,为解决能耗墙问题迈出了第一
步。
第 i 页
国防科学技术大学研究生院博士学位论文
在可靠性篇中,主要工作体现在:
1. 提出了可靠可扩展性模型(第五章)
随着系统规模的增长,可靠性也逐渐下降,严重影响了大规模并行系统
的正常运行。因此,需采用必要的容错机制来提高系统的可靠性和可用性。
容错往往是有代价的(时间和金钱等),这些代价在不同程度上影响和制约
了并行计算的可扩展性。文章考虑容错的时间开销,建立可靠加速比模型,
并根据可靠性与计算性能的关系将系统分为常量系统和递增系统两类。此
外,在可靠加速比模型的基础上进一步考虑了容错的金钱开销,建立广义可
靠加速比模型。
2. 提出了可靠墙/ 广义可靠墙理论(第六章)
与“能耗墙”的研究现状类似,国际上,“可靠墙”也仅停留在一个术
语上,对于它的内涵及量化等均未有研究。本文根据建立的可靠加速比和广
义可靠加速比模型,分别提出了可靠墙和广义可靠墙理论并给出相应的证
明。分析了常量系统和递增系统与可靠墙之间的关系,并证明递增系统可能
存在可靠墙,而常量系统不存在可靠墙。
3. 提出了可扩展容错机制(第七章)
为了解决可靠墙存在的问题,本文以三模冗余(Triple Modular Redun-
dancy,TMR)为基础,提出了一种不制约可靠可扩展性的容错机制—可
扩展容错机制。分析引入传统 TMR 的并行计算运行于 Mesh 网络拓扑结
构系统上的额外开销,得到制约其可靠可扩展性的根本原因,并由此设计
出了相应的解决办法,进而提出可扩展三模冗余(Scalable Triple Modular
Redundancy,STMR)容错机制。通过理论分析和模拟实验,验证了该机制
的可靠可扩展性,有效的解决了可靠墙问题。
关键词: 可扩展性; 能耗墙; 可靠墙; 度量模型; 优化技术
第 ii 页
国防科学技术大学研究生院博士学位论文
ABSTRACT
puting is the main approach to improve the performance puter
system. As the system size increases, the architecture es more and plex,
and the issues about programming, memory, energy consumpti