文档介绍:NVIDIA GPU 结构
目前市场上的 NVIDIA 显卡都是基于 Tesla 架构的 ,分为 G80 、G92 、GT200 三 个
系列。 Tesla 体系架构是一块具有可扩展处器数量的处理器阵列
NVIDIA GPU 结构
目前市场上的 NVIDIA 显卡都是基于 Tesla 架构的 ,分为 G80 、G92 、GT200 三 个
系列。 Tesla 体系架构是一块具有可扩展处器数量的处理器阵列。每个
GT200
GPU
包含
240 个流处理器 (streaming processor,SP
每 8 个流处理器又组成了一个流
多
处理器(streaming multiprocessor
’因sM此共有
30 个流多处理器。
GPU
在工作时
,
工作
负载由
PCI-E
总线从
CPU
传入
GPU
显存 ,按照体系架构的层次自顶向下分
发。PCI-E
规范中,每个通道上下行的数据传输速度达到了
,这样
PCI-
X 6 插槽能够为上下行数据各提供了 *16Gbit/s=10GB/s 的带宽 ,故有效带宽 为
8GB/S, 而 PCI-E 规范的上下行数据带宽各为 20GB/S 。但是由于 PCI-E 数据封 包的影响 ,实际可用的带宽大约在 5-6GB/s (PCI-E 16 。
在 GT200 架构中 ,每 3 个 SM 组成一个 TPC (Thread Processing Cluste 线程处理器集群 ,而在 G80 架构中 ,是两个 SM 组成一个 TPC,G80 里面有 8 个 TPC ,因为 G80
有 128(2*8*8 个流处理器 ,而 GT200 中 TPC 增加到了 10(3*10*8 个,其中 ,每个 TPC
内部还有一个纹理流水线。
大多数时候 ,称呼 streaming process 。为流处理器 ,其实并不太正确 ,因为如果
称 streaming process 。为流处理器的话 ,自然是隐式的与 CPU 相对 ,但是 CPU 有独立的 一套输入输出机构 ,而 streaming processo 并没有 ,不能在 GPU 编程中使用 printf
就 是一个例证。将 SM 与 CPU 的核相比更加合适。和现在的 CPU 的核一样 ,SM 也拥 有
完整前端。
GT200 和 G80 的每个 SM 包含 8 个流处理器。流处理器也有其他的名称 , 如线 程处理器 ,核”等 ,而最新的 Fermi 架构中 ,给了它一个新的名称 :CUDA C