成都站	首页 > 今日报价 > 成都今日报价 > 成都今日行情 > 厂商动态--成都 > 正文	世界杯

拒绝假DX11 GPU进入流处理集群时代

2010-07-29 00:06 出处：PConline原创 作者：XP 责任编辑：liujie

　　第三代SM在架构上引入了多项革新，使其不仅成为迄今为止最强大的SM，而且还是可编程性最强、效率最高的SM。

512个高性能CUDA核心（GTX480削减了一个SM于是仅有480个CUDA核心）

　　每个SM都有32个CUDA处理器，达到了之前SM中处理器数量的四倍。GF100的CUDA核心专为在着色器的任何负荷下均实现最高性能以及最高效率而设计。通过采用标量架构，无论输入向量尺寸如何，都能够实现全部性能。Z缓冲区（1D）或纹理存取（2D）方面的操作均可充分利用GPU（图形处理器）。

　　每一个CUDA处理器都拥有一个完全流水线化的整数算术逻辑单元（ALU）以及浮点单元（FPU）。GF100采用了全新的IEEE754-2008浮点标准，能够为单精度以及双精度算术提供融合的乘法加法（FMA）指令。FMA在一个最终的四舍五入步骤中即可完成乘法与加法运算，改进了乘法加法（MAD）指令，在加法中不会损失精度。FMA在处理紧密重叠的三角形时能够最大限度地减少渲染错误。

　　在GF100中，全新设计的整数ALU支持所有指令全32位精度，符合标准编程语言的要求。整数ALU还经过了优化，可有效支持64位以及更高精度的运算。它支持各种指令，其中包括Boolean、移位、移动、比较、转换、位字段提取、位反向插入（Bit-reverse Insert）以及种群统计。

　　16个载入/存储单元

　　每一个SM都拥有16个载入/存储单元，从而在每个时钟周期内均可为16个线程运算源地址与目标地址。支持的单元能够将每个地址的数据载入和存储到高速缓存或DRAM中。

　　四个特殊功能单元

　　特殊功能单元（SFU）可执行抽象的指令，例如正弦（sin）、余弦（cosine）、倒数和平方根。图形插值指令也在SFU上执行。每个SFU在一个时钟周期内针对每个线程均可执行一条指令，一个Warp（32个线程）的执行时间可超过八个时钟周期。SFU流水线从分派单元中分离出来，让分派单元能够在SFU处于占用状态时分发给其他执行单元。复杂的程序着色器在特殊功能专用硬件上的运行优势尤为明显。

　　双Warp调度器

　　SM可对32个为一组的并行线程（又叫做Warp）进行调度。每个SM拥有两个Warp调度器以及两个指令分派单元，这样，就能够同时发出和执行两个Warp。GF100的双Warp调度器可选出两个Warp，从每个Warp发出一条指令到16个核心、16个载入/存储单元或4个特殊功能单元。因为Warp是独立执行的，所以GF100的调度器无需检查指令流内部的依存关系。通过利用这种优秀的双指令执行（Dual-issue）模式，GF100能够实现接近峰值的硬件性能。
大多数指令都能够实现双路执行，两条整数指令、两条浮点指令或者整数、浮点、载入、存储的混合指令以及SFU指令均可同时执行。双精度指令不支持与其它指令同时分派。

　　纹理单元

　　每个SM都拥有四个纹理单元。每个纹理单元在一个时钟周期内能够计算一个纹理地址并获取四个纹理采样。返回的结果可以是经过过滤的也可以是未过滤的。支持的模式包括双线性、三线性以及各向异性过滤模式。

　　GF100的目标是通过提升效率来提升纹理性能。通过将纹理单元搬到SM当中，NVIDIA实现了这一目标，提升了纹理高速缓存的效率、实现了更高的时钟频率。

　　在以往的GT200架构中，最多三个SM共享一个纹理引擎，该引擎含有八个纹理过滤单元。在GF100 架构中，每个SM都拥有自己专用的纹理单元以及一个专用纹理高速缓存。而且，纹理单元的内部架构还得到了大幅增强。在阴影贴图、屏幕空间环境光遮挡等实际使用情况中，净效应就是所实现的纹理性能得到了大幅提升。

　　GF100专用的1级纹理高速缓存经过重新设计，可实现更高的效率。而且，通过配备统一的2级高速缓存，纹理可用的最大高速缓存容量达到了GT200的三倍，为纹理密集的着色器提升了命中率。

　　之前架构上的纹理单元能够以GPU的核心频率工作。在GF100上，纹理单元的运行频率更高，从而在单元数量相同时提升了纹理性能。

　　GF100的纹理单元还新增了对DirectX 11中BC6H与BC7纹理压缩格式的支持，从而减少了HDR纹理与渲染器目标的存储器占用。

提高了抗锯齿能力的新型ROP单元