1 / 69
文档名称:

GPU加速的矩阵计算分析.pdf

格式:pdf   页数:69页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

GPU加速的矩阵计算分析.pdf

上传人:gd433 2016/3/6 文件大小:0 KB

下载得到文件列表

GPU加速的矩阵计算分析.pdf

文档介绍

文档介绍:———————————』型坚一IIYIIIIIIl2llllll7lllUll7lllltllllllllzlllllllllllllzllll— iiiiiiiiiiiiiiiiiii萱●—毒暑暑奄I‘--●--o i 中文摘要高性能计算领域的很多问题都在研究并行算法的实现,而矩阵计算又是高性能计算中应用非常广泛的内容。随着需求的日益增加,串行算法己经无法满足研究的需求,集群会有部分性能的提升,但是集群低耦合的局限性导致它的可移植性差,计算量增加带来了高昂的设备成本和大的耗电量。图形处理器GPU(Graphic Process Unit)有着强大的并行处理能力,出色的浮点计算能力,大存储带宽和低成本,广泛用于求解大规模矩阵计算问题上。本文针对三个典型的矩阵问题进行研究:正矩阵近似最大特征值,普通矩阵近似最大特征值和可逆矩阵求逆矩阵。首先目前求解正矩阵近似最大特征值问题最有效的算法是串行实现的,本文在CUDA架构下实现了相似变换方法求解正矩阵的最大特征值的并行算法(PA—ST: Parallel—Simi larity Transformation),。其次目前求解一般矩阵近似最大特征值的并行QR算法更适用于求出矩阵所有特征值。因此我们借助于CUDA架构实现了求解普通矩阵的近似最大特征值的并行加速(PA—A-Pareallel—Approximate)。"~。最后对于可逆矩阵求逆矩阵问题,目前有效的算法都是串行思想。随着矩阵规模的增加,串行方法的计算无疑是非常耗时的。考虑到上面的情况,本文首次实现了全选主元高斯约旦法求实矩阵逆矩阵的GPU并行算法(PA—Gauss For Real Matrix)和复矩阵逆矩阵的的GPU并行算法(PA—Gauss plex Matrix)。分别获得了100435和36508的最大加速比。我们对算法核心步骤进行并行化,并且做了相应的CUDA优化。实验结果均表明在矩阵大小持续变大的情况下,加速比也跟着对应的上升,而迭代不断加大的情况下我们的加速比并没有什么明显的变化,因此我们的算法对于更大规模矩阵的迭代问题仍然有效。关键词:矩阵最大特征值;可逆矩阵逆矩阵:CUDA;GPU 万方数据 Abstract Abstract A lotofproblems inhigh performance devote to research parallel algorithms implementation,matrix calculation is also a topic which is widely used in high- thedevelopment oftechnology and theincreasing demand,serial algorithms have been unable tomeet theneeds call improve theperformance partly,but low coupling of aclusterleds toitspoor porbability, and italsoleds toequipment cost and power consumption increase with calculation amount processor GPU(Graphic Process Unit)has powerful parallel processing capabilities,excellent floating-point calculation capabilities,high memory bandwidth,low cost,which isused tosolve large-scale putation. This paper studies threetypical matrix topics:the approximation maximum eigenvalue ofpositive matrix,the approximation eigenvalue ofgeneral matrix and the inverse matrix ofreversible matrix. Firstly,for theapproximation maximum eigenvalue ofpositive matrix,the effective methods are allimplemented with serialalgorithms,SO we imple