超越图形界限 AMD并行计算技术全面解析

● 未来ATI图形芯片架构预测

我们根据各方面的情报综合考虑，下一代即将到来的“Southern Island”（“南岛”）还是延续R600架构，但是把曲面细分单元（Tessellator）放在VLIW Core中，这是一次非常难得的改进。但同时这也是南岛的极限。因为要把固定功能单元要挂到VLIW Core中，就要有独立的总线连接、独立的资源、寄存器、端口，也就是说独立的线程仲裁分配能力。

在VLIW Core中实现独立仲裁分配能力，是AMD一直希望在GPU中做到的，如果能做到这一点，那AMD或许能够借此实现更深级别的乱序执行，这基本上就和NVIDIA站在同一起跑线。同时如果把曲面细分单元（Tessellator）放在VLIW Core中，曲面细分能力将伴随芯片规模而变化，高中低端显卡将拥有各自不同的曲面细分能力。这和NVIDIA将曲面细分单元（Tessellator）放在SM中是一个道理。

AMD下代“南岛”架构两种设计方向推测

如果南岛无法一次性将曲面细分单元（Tessellator）放在VLIW Core中，可以选择另外一种途径，那就是对GPU内部单元进行分频。正如NVIDIA将CUDA Cores的频率以两倍于固定单元频率运行一样，AMD可以选择将几何性能较弱的Setup Engine和Tessellator等单元按一定幅度提升频率。

或者将GPU的前端超线程发送器（Ultra Threaded Dispatch Processor）整体频率提升，这样曲面细分单元自然也会受益，同时GPU的几何处理能力会得到线性增强。

但是也有一种说法认为AMD没有能力在HD6000芯片的VLIW Core级别中添加更多的essellator单元，因为线程仲裁能力背后的设计还很复杂，比如足够的挂起空间。仲裁器本身没多少晶体管，这种资源基本上都是LDS，寄存器也是。所以R800使用了抢占式多线程，但是速度和效率还是得不到保障。

另一种猜想已经被我们否定，那就是在现有的前端超线程发送器（Ultra Threaded Dispatch Processor）中添加一个曲面细分单元（Tessellator）。因为这需要两套独立的crossbar，以及在VLIW Core外设置独立的出口，最后还要设置抢占式多线程分配单元。

所以我们可能看到HD6000系列在流处理器规模与HD5000系列相同的情况下，在Direct X 10和Direct X 9性能方面落后于HD5000，但是由于几何能力的提升，在Direct X 11方面，会有较为出色的表现。这一点和Fermi架构的设计思路是非常接近的。

在南岛架构完成之后，我们将见到相对于目前R600-R800转变较大的北岛架构（Northern Island），根据现有的情报推断，北岛有可能是曾经的C1（代号Xenos架构）放大版。ATI可能会将RV8的US全部取出，把C1的3D 1D的流处理器和高速eDRAM放入核心。按照R600到R800以来的流处理器利用率，ATI认为4D 1D结构利用率很低，完全可以使用更灵活的搭配来减少晶体管消耗，这可以看做是一次向R300架构简洁明快设计思路的回归。

同时北岛架构的eDRAM不是做cache，是做全局存储，也就是我们看到的显存。2005年设计完成的C1（代号Xenos架构）所采用的eDRAM已经有250GB/s以上的带宽了。如果北岛架构使用现在的eDRAM，带宽翻倍甚至接近800GB/s都是可以做到的。当然使用高速eDRAM之后显存容量将会降低，也许我们看到北岛架构只有100MB左右的显存。不过用户不必担心纹理材质的存放问题，在Xenos时代借助eDRAM极高的带宽，整个XBOX360的GPU全局存储只有10MB。快速刷新显存实际上等效于显存容量的放大，加之高效的材质压缩算法，物理显存只要能够容纳最大材质就能满足GPU需求。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。