文档介绍:国防科学技术大学
博士学位论文
合成孔径雷达数据处理应用的细粒度并行算法与结构
姓名:周杰
申请学位级别:博士
专业:计算机科学与技术
指导教师:窦勇
2010-10
国防科学技术大学研究生院博士学位论文
摘要
合成孔径雷达正朝着高分辨率、大幅宽、多波段、多极化和多工作模式方向
发展,随之而来的是数据量和计算量的急剧膨胀。同时,合成孔径雷达应用系统
主要运行在飞机、卫星、导弹等特殊环境中,小型化、轻型化、低功耗也是其发
展的必然趋势。因此,寻找存储容量大、处理能力强,满足机载、星载、弹载等
特殊环境的处理平台,并研究基于该平台的实时处理系统具有重要的理论意义和
实际应用价值。
本文首先将合成孔径雷达应用分为静态目标成像和运动目标检测成像两类,
提取这两类应用中的关键数据处理算法,并分别研究这些关键数据处理的细粒度
并行算法与结构。具体的讲,主要进行了如下一些研究:
1) 鉴于 FFT 变换算法在合成孔径雷达应用中的基础地位,同时针对系统对不
同规模 FFT 变换的设计与实现需求,本文提出了基于参数化模板 FFT 细粒度并行
算法与结构的设计架构与方法,给出了基于参数化模板设计方法的 FFT 变换的性
能模型和硬件资源使用模型。对该设计架构做进一步扩展就可以作为基于参数化
模板的 FFT 硬件代码自动生成架构,为下一步研究工作奠定了基础。
2) 针对 STAP 处理中的求解最小二乘方程组,本文对基于 Givens 旋转、
Householder 变换、MGS 的三种 QR 分解和基于列选主元的 LU 分解等四种矩阵分
解算法进行了深入分析。分析结果显示,四种矩阵分解算法具有相同的两层循环
结构与数据依赖关系。利用该特点,我们首先提出了统一的矩阵分解细粒度并行
算法与结构。然后提出了包含可扩展一维线性阵列的统一矩阵分解协处理器结构,
并该结构中的处理单元具有统一的存储通道与连接关系,仅是处理单元内部数据
通路有所不同。最后基于 Xilinx Virtex5 FPGA (Field Programmable Gate Array)实现
了 IEEE754 标准的单精度浮点格式的统一结构矩阵分解协处理器。性能测试结果
表明,相对于运行在 Pentium 双核 CPU 上的双线程 SSE 代码,该协处理器可取得
到 倍的性能加速。
3) 研究了合成孔径雷达成像系统的细粒度并行算法与结构。针对合成孔径雷
达成像算法对矩阵行列交叉访问和 DRAM 存储器的访问特点,本文提出了可使系
统存储带宽平衡且达到最高的最优窗口访问原理,并基于该原理设计和实现了窗
口模式 DRAM 存储控制器,有效缓解了存储墙问题。该窗口访问原理不仅适用于
合成孔径雷达成像类算法(如 CS 算法、RD 算法等),也可以方便的应用在矩阵乘、
图像处理等需要矩阵行列交叉访问领域中。结合第二章有关 FFT 变换的研究成果,
分别提出了硬件资源充足和不足条件下的合成孔径雷达成像细粒度并行算法与结
构。与相关研究相比,利用本文所提结构实现规模为 64*64 和 256*256 合成孔径
第 i 页
国防科学技术大学研究生院博士学位论文
雷达成像的性能分别是 DM 系统的 倍和 倍。由于窗口访问方式适用于大
规模矩阵的交叉访问,因此对于大规模 SAR 成像,本章的基于窗口访问系统的优
势将更加明显。
4) 研究了具有优良杂波和干扰抑制性能的 STAP 处理的细粒度并行算法与结
构。STAP 处理的输入数据为一个三维立方体结构,处理过程中需要对该立方体两
个或三个维度上的数据进行访问。与合成孔径雷达成像系统类似,本文首先针对
不同访问需求分别提出了二维和三维访问模式,以便缓解存储墙问题,解决系统
的存储访问瓶颈。在第二章 FFT 变换和第三章矩阵分解类算法研究基础上,提出
了 STAP 处理的细粒度并行算法与结构,并针对自适应处理的特点提出了体循环结
构存储器和二维阵列结构。性能测试结果表明,与运行在 Pentium 双核 CPU 上的
双线程 SSE 相比,包含 16 个处理单元的 STAP 阵列处理器可取得 倍的性能
加速。
5) 为计算合成孔径雷达应用系统中各种超越函数,本文最后提出了混合模式
CORDIC 算法。该算法通过混合旋转角度方法减少硬件代价,并进行收敛域扩展。
基于混合模式 CORDIC 算法,设计和实现了单精度浮点 CORDIC 协处理器。利用
三段包含大量超越函数的科学计算程序核进行的性能测试结果表明,相对于 32 位
Pentium4 处理器,32 位混合模式