1 / 157
文档名称:

单芯片多核处理器存储优化技术研究.pdf

格式:pdf   页数:157
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

单芯片多核处理器存储优化技术研究.pdf

上传人:banana 2014/2/8 文件大小:0 KB

下载得到文件列表

单芯片多核处理器存储优化技术研究.pdf

文档介绍

文档介绍:国防科学技术大学
博士学位论文
单芯片多核处理器存储优化技术研究
姓名:邓林
申请学位级别:博士
专业:计算机科学与技术
指导教师:窦勇
2011-03
国防科学技术大学研究生院博士学位论文
摘要
以超大规模集成电路芯片晶体管数量持续增长为物质基础,单芯片多核处理
器以可扩展性好、设计复杂度低、性能功耗比高等优点,成为当前单芯片处理器
体系结构发展的主流。单芯片多核处理器分为同构多核处理器和异构多核处理器
两种。无论是同构还是异构多核处理器,在计算性能迅速提升的同时,也带来了
多核存储层次多、共享 cache 竞争和存储带宽受限等技术挑战。围绕这些多核存储
问题,本文主要针对不规则存储访问应用开展算法层次的存储优化技术研究、面
向不规则存储访问应用和在线事务处理应用开展了多核共享 cache 体系结构优化
技术研究、面向带宽优化的存储控制器调度算法研究。
本文在算法级存储优化方面,首先分析了密集不规则矩阵和稀疏不规则矩阵
运算的访存特征,建立了带优先级的重用数据访存模型。再结合异构多核处理器
的存储层次性能特点,提出了减少中间临时结果传输、矩阵分块并行计算、多 buffer
实现计算与数据传输重叠、循环展开隐藏片内存储访问延时、改变数据存放格式
减少控制开销和通用处理器核 PPE 与计算处理器核 SPE 并行计算提高程序并行性
和访存带宽利用率等 6 种适合不规则矩阵在异构多核处理器上的存储优化技术。
最后,利用 Cell BE 处理器作为测试平台,获得了与单 PPE 串行运算相比 和
的加速比。
cache 优化方面,本文从 cache 划分和 cache 结构两方面进行存储优化。通过
分析稀疏矩阵向量乘(SPMV)的访存特征,提出了一种面向数据结构的细粒度
cache 划分策略。利用多核体系结构模拟器,以 Florida 大学(UF)的稀疏矩阵测
试集中的 12 个矩阵为测试集,采用细粒度 cache 划分,可以消除 SPMV 中可重用
向量的容量和冲突失效,同时降低 SPMV 计算的 cache 容量需求。本文还提出了
一种适合于在线事务处理(OLTP)的软件可控的半透明 cache 结构。通过分析数
据库管理系统的运行模式、存储管理方法和主要数据结构等特征,以及 OLTP 应用
的访存特征,构建了数据分类模型,将访存数据分为放弃型、保护型和自由竞争
型三类。最后,在多核体系结构模拟器上,利用半透明 cache 区别对待三种数据类
型,与透明式 cache 相比,可以使 cache 失效的下降率达到 35%。
存储控制器方面,本文主要研究访存请求调度算法优化。结合不同处理器核
之间访存请求的相互影响和存储器的运行特征,提出了一种两阶段访存请求调度
算法。该算法不仅考虑了多核间的访存调度的公平性,也考虑了存储带宽的充分
利用。第一阶段,为处理器核分配不同的访存优先级,保证高优先级的进程的访
存被优先调度执行,以满足进程的实时性。对于相同优先级的访存请求,提出了
第 i 页
国防科学技术大学研究生院博士学位论文
多核访存公平等待时间评价模型,并基于该模型尽可能的保证它们访存的公平性。
第二阶段则面向目前主流的 DDR3 DRAM 存储器的特点,建立访存请求限制模型,
提出了多通道防饿死最小等待时间调度策略。最后,以来自 SPEC CPU 2000 中的
10 个测试程序的访存流为测试集,在模拟器上的测试表明,与先到先服务调度
(FCFS)相比,减少了 33%的访存等待时间,访存加速比达 。同时,公平调
度也使大部分应用的访存性能下降比在 左右。



关键词:多核处理器;不规则矩阵运算;在线事务处理;存储优化;cache
划分;共享 cache 结构;访存请求调度
第 ii 页
国防科学技术大学研究生院博士学位论文
Abstract
Along with the increasing transistor density on the Very Large Scale Integration
(VLSI) chips, Single-chip Multi-core Processor (CMP) has e the mainstream of
single chip architecture development with their better scalability, lower design
complexity and better performance per watt, compared to singl