快讯

拒绝假DX11 GPU进入流处理集群时代

2010-07-29 00:06  出处:PConline原创  作者:XP   责任编辑:liujie 

  GF100的ROP子系统经过重新设计,可提升吞吐量与效率。一个GF100 ROP分区包含8个ROP单元,数量比上一代架构翻了一倍。每个ROP单元在一个时钟周期内均能够输出一个32位整数像素,一个FP16像素需要两个以上的时钟周期,一个FP32像素需要四个以上的时钟周期。原子指令性能也得到了大幅提升,相同地址的原子操作执行速度最高可达GT200的20倍,邻近存储区的操作执行速度最高可达7.5倍。

  在GF100上,由于压缩效率的提升以及更多ROP单元能够更有效地渲染这些无法被压缩的较小基元,因此8倍速多重采样抗锯齿(MSAA)的性能得到了大幅提升。当压缩不起作用时,场景中几何逼真度的提升更加需要ROP单元良好地运行。

  在上一代架构中,8倍速多重采样抗锯齿(MSAA)模式所导致的性能下降在不同游戏上的表现差异很大,Tom Clancy的《鹰击长空》(HAWX)就是这种游戏的一个例子。这款游戏在8倍速多重采样抗锯齿模式下表现出了非常低下的效率。在GF100上,8倍速多重采样抗锯齿的性能有了很大的提升。在4倍速抗锯齿模式下,GF100比GT200快1.6倍。在8倍速抗锯齿模式下,GF100比GT200快2.3倍,仅比自己在4倍速模式下慢了9%。

  抗锯齿性能,尤其8倍速多重采样抗锯齿在GF100上实现了大幅提升。

  GF100还新增了一种新型32倍速覆盖采样抗锯齿(CSAA)模式,该模式能够提供最高图像质量并利用“透明至覆盖”(Alpha-to-Coverage)来为当今游戏提升感官上的几何逼真度。

  由于受到API与GPU计算能力的限制,当今的游戏能够渲染的几何图形数量还很有限。叶子的渲染是一个尤其突出的难题。针对叶子的一种常用技术就是创建一个包含许多树叶的透明纹理公告板,利用“透明至覆盖”来除去树叶之间的缝隙。覆盖采样的数量决定了边缘的画质。如果只有四个覆盖或八个采样,那么将会出现非常糟糕的锯齿以及镶边现象,尤其是在纹理靠近屏幕的时候。采用32倍速覆盖采样抗锯齿(CSAA),GPU共有32个覆盖采样,从而最大限度减少了镶边效果。

  透明多重采样(TMAA)也能够从CSAA中获益匪浅。由于“透明至覆盖”不在DirectX 9 API当中,所以DirectX 9游戏无法直接使用“透明至覆盖”。而TMAA恰恰对这样的游戏有所帮助。取而代之的是,它们采用了一种叫做“透明测试”的技术,该技术能够为透明纹理产生硬边缘。TMAA能够转换DirectX 9应用程序中旧的着色器代码,使其能够使用“透明至覆盖”。而“透明至覆盖”与CSAA相结合,能够生成大幅提升的图像质量。

  因为覆盖采样对存储器的要求很低,所以32倍速覆盖采样抗锯齿(CSAA)的性能在很大程度上可与8倍速多重采样抗锯齿(MSAA)比肩。各种游戏中的平均成绩显示,32倍速CSAA的性能仅比8倍速MSAA低7%。

  实际上,了解了以上关于GF100核心架构之后,理解GTX480与HD5870差距就显得十分简单了:
A/N核心架构对比分析:

  由于全新的PolyMorph引擎以及光栅(Raster)引擎,GTX400系列的并行架构极大推动了其在游戏下的表现,实际上在DX11架构,流处理器集群较之流处理器数量更为重要,这是因为并行计算在图形渲染中已经占据相当大的比重。

  简单来说,GTX480拥有480个流处理器,以及16个流处理器集群,每个集群分别拥有相应的引擎最终达成了性能的提升,而HD5870虽然拥有1600个流处理器,却只有一个流处理器集群,仅拥有一组计算引擎,因此性能大幅降低。

  GPC架构的简要重述

  GPC架构在集合流水线方面实现了巨大突破。Tessellation(曲面细分)需要全新级别的三角形与光栅化性能。PolyMorph引擎为三角形、Tessellation(曲面细分)以及流出(Stream Out)等方面实现了大幅性能提升。四个并行Raster引擎在三角形设置与光栅化方面能够提供持久的高吞吐量。通过为每一个SM配备一个专用的Tessellator、为每一个GPC配备一个Raster引擎,GF100所能够实现的几何性能可达GT200的8倍。

  直方图中左侧三组柱显示了三种定向测试的Tessellation(曲面细分)几何性能,这三种测试仅用于分析Tessellation(曲面细分)性能。随着几何复杂度的增加,GF100超越对手的性能优势也就越大。Hair以及Water演示中除了几何处理以外还包含了着色与计算操作。最右边的一组柱显示了DirectX 11应用程序中Tessellation(曲面细分)状态存储桶(一帧中的一组绘画调用)的性能。

  因此,这就很好解释了,HD5000系列在运行DX9、DX10程序时性能很好,而在运行DX11程序时性能低下的原因。GTX400虽然每个流处理集群里面仅有32个流处理器,不过由于加入了高精度引擎因而无论在任何DirectX接口下都有强大的性能。

键盘也能翻页,试试“← →”键
IT热词搜索 来源:360新闻