谁是‘马甲’始祖？简析AMD显卡架构进化史

【天极网DIY硬件频道】在已经成为历史的AGP时代，ATI在与NVIDIA的竞争中，ATI凭借Radeon8000/9000系列显示芯片的优秀性能一直处于领先地位。2004年显卡开始转入PCI-Epress时代，NVIDIA在SM3.0特效和多卡协同运算技术上抢占了先机，一时让ATI陷入被动的局面。直到ATI推出全新的R560/570显示芯片，主张像素：纹理=3：1的核心架构，这3：1黄金架构符合当时游戏对显卡硬件资源的需求，让ATI重新走回显卡霸主地位。

X1950GT采用3：1黄金架构

2007年1月微软正式发售跨时代的操作系统——Windows Vista，同时也带来全新的图形显示技术DirectX 10。DirectX 10最大的革新就是统一渲染架构(Unified Shader Architecture)，所谓统一渲染架构，就是将传统的VS、PS以及DirectX 10新引入的GS进行统一封装。与传统GPU架构不同，此时的GPU不再分配单独的渲染管线，所有的运算单元都可以处理任何一种Shader运算(不论顶点操作、像素操作还是几何操作)。

DX9/DX10对比

早在AMD收购ATI之前，ATI于2005年与微软合作发布的XBOX 360游戏主机采用的Xenos图形处理器。Xenos采用了统一渲染架构，这是游戏玩家第一次接触到统一渲染架构的产品。

XBOX360最早采用统一渲染架构

Xenos图形处理器，第一次引入了统一着色器架构，这个着色器架构包含了3个独立的着色器矩阵，每个着色器矩阵内有16个5D向量SIMD单元(即一共有48个统一渲染单元)，这些SIMD单元既可以执行Vertex Shader也可以执行Pixel Shader，由于当时尚未有DX10技术标准，也可以称之为符合DirectX9标准的统一着色器架构。

ATI在XBOX360游戏主机第一次使用上统一渲染架构，为日后AMD(ATI已被收购)推出的全新R600显示核心打下了基础，并且深深影响了AMD显卡未来几代架构发展。

2007年5月15日是个具有历史性的日子，AMD正式发布了基于统一渲染架构R600的Radeon HD 2900 XT(以及其它低端型号的HD 2000系列)。虽然R600架构类似于Xenos图形处理器，但是在性能上却远远领先于后者。

R600架构

R600采用了5个1D ALU的架构设计，也称为5D Superscalar超标量架构。为了尽可能的提高效率，AMD引入了VLIW5体系(Very Long Instruction Word，超长指令集)的设计，可以将多个短指令合并为一组长的指令交给流处理器单元去执行，比如5条1D指令或者1条3D指令和两条1D指令可以合并为一组5D VLIW指令。这VLIW5体系设计一直沿用至今，证明该设计是相当成功的。

ATI首款统一渲染架构HD2900XT

整体规格方面，Radeon HD 2900XT核心频率为740MHz，拥有320个超标量流处理器，16组纹理单元，采用GDDR3显存，512bit显存位宽，显存频率为1650MHz。R600架构中还集成了Hardware Tessellation技术，这也是目前DX11中火热的硬件曲面细分技术。

作为AMD第一款桌面统一渲染架构GPU的R600相对于Xenos图形处理器没有革命性改变，却加入了不少新技术。但是由于AMD收购ATI事件影响，R600推出时间比NVIDIA的G80晚了半年时间，性能却不尽人意。R600的架构特点也预示着AMD开始的'马甲’路线的开始。

没过多久，AMD在R600的试水失败之后，很快便推出了改进版的RV670架构。核心架构设计上，RV670与R600并没有明显区别，依然是320个流处理器，分为4组SIMD阵列，每个阵列对应一组纹理单元。每5个ALU和一个分支预测单元组成一个流处理器单元，继续着5D的超标量结构。

R670架构

对比R600，RV670做了不少的改进：制造工艺由80nm进化到55nm;PCI-E控制器升级支持2.0版本，带宽倍增;高清解码引擎由原来的Shader解码升级为UVD引擎，支持H.264和VC-1的完全硬解码;显存控制器由512bit降至256bit(实际上R600和RV670的运算能力其实不需要太高的显存位宽);支持PowerPlay节能技术，根据GPU使用率自动调整频率，降低功耗;API升级至DX10.1。

HD3870显卡

RV670架构本质上没有改变，更像是R600架构的工艺改进版。此时AMD的GPU架构开始了'小而精’的发展路线，通过不断优化精简，可以降低研发周期和生产成本，从而在价格上优于对手。也正是这样，AMD显卡往后几代都背负上了'马甲’的称号。

2008年6月份，AMD发布了基于RV770架构的第二代DX10.1显卡，显卡的流处理器单元从上代的320个暴增到800个，AMD采用'小而精’的5D超标量架构容易增加流处理器单元的优势渐渐显现出来。RV770核心架构依然没有改变，也可以看成大块头的RV670'马甲’。

R770架构

RV770的SIMD阵列由RV670的4组增加到10组，纹理单元也相应地增加到10组，整体规格是上一代架构的2.5倍，流处理器单元达到了800个，纹理单元则提高到了40个，光栅单元(ROP)为16个，SP单元的急剧增加也大幅提升了RV770的性能。

HD4850显卡

RV770架构的显卡在市场上大受欢迎，通过对55nm制程工艺的熟练掌握，RV770在规格翻了一倍多的同时并没有大幅增加核心面积，同时功耗控制也非常出色。AMD'小而精’的核心架构策略相当成功，通过简单快速地堆积流处理器单元数目，大幅度高性能和减少开发周期，从而在市场上领先对手——可以理解为'马甲’战术。

2009年9月23日AMD抢先发布了首款DX11图形GPU——Cypress，得益于'小而精’的5D超标量架构，Cypress在硬件规模方面又有了惊人的提升，其中流处理器数量达到了疯狂的1600个。

Cypress核心架构图

从架构来看设计方面来看，Cypress就像是两颗RV770封装在一起，流处理器部分可以看做是“双核心”设计，各项规格也都是RV770的两倍，比如1600个流处理器、80个纹理单元和32和ROP光栅单元等。在流处理器部分，Cypress相对于RV770改进有限，只是加入了DX11新增的位操作类指令，并优化了Sum of Absolute Differences(SAD，误差绝对值求和)算法，指令执行速度提升12倍。

HD5870显卡

Cypress相对RV770在架构方面改进有限，主要是新增了DX11新特性，另外利用40nm和新一代GDDR5显存在功耗控制方面做的非常完美，加上抢先发布性能均衡，受到了很好的市场反响。由于出色的功耗控制，AMD随后推出了HD5970，拥有变态的3200个流处理器的HD5970一生寂寞无对手，成了当之无愧的卡皇。

AMD凭借优秀的'小而精’架构，对上代架构进行修正优化，再套上新显卡型号的'马甲’战术，逐步使AMD显卡走出困境，赢得市场的主动权。

由于台积电代工工艺的严重落后的问题，迫使Radeon HD 6800系列所属的“北方群岛”家族并没有在核心架构方面进行大规模的重新设计，而是基本沿用了R600以来的VLIW5式SIMD流处理器结构，并在诸多细节上做了优化和增强，AMD称之为“第二代DX11设计”。

Barts核心架构图

对比前面的Cypress核心架构，Barts 的改变可谓“微乎其微”。但Barts还是对内核设计做了重新配置，单精度浮点性能最高能够突破2TFlops(每秒2万亿次计算)大关，每秒钟能够处理的像素也能超过240亿，同时曲面细分单元进行了特别增强(第七代)，光栅器(Rasterizer)也配备了两个，Hub部分有PCI-E 2.1总线控制器、UVD3硬件解码引擎、CrossFireX管理引擎、Eyefinity显示控制器等，显存控制器则依然是四个64-bit，总位宽256-bit，继续搭配高速GDDR5显存颗粒。

HD6870显卡

在HD6000系列显卡上，AMD完美地给大家奉献了一场'马甲’盛宴。要是说高端的HD6850/6870是HD5850/5870的优化精简，那么HD6700系列就是HD5700系列的完美'克隆’。在HD6000系列的中低端显卡，AMD普遍采用了上一代的显示核心简单更改名字而成。

在2010年12月，AMD发布架构变革的试水产品——HD6970/6950。HD6900系列采用Cayman革新的VLIW4架构。

Cayman核心架构

这次架构的调整，是即将推出全新HD7000系列显卡的试验型产品。整个Cayman最根本的流处理器单元依然是基于VILW体系，只不过由5D调整为4D。VLIW4流处理器单元中的ALU单元减为4个，数量虽然少了但是这种设计减少了指令调度和寄存器管理，反而提升了利用率。

HD6900系列规格

Cayman强化了并行通用计算，增加了一个全局异步寄存器，从而支持异步分配，可以同时执行多个计算内核，这也符合未来通用计算的潮流。Cayman还增强了曲面细分性能、增强画质抗锯齿(EQAA)、增强各向异性过滤与纹理过滤、加入全新功耗管理等。

作为新架构的试水产品，HD6900在架构上稍作调整以便更适合未来的通用计算。Cayman核心架构，可以算是AMD的R600最后一个'马甲’产品。

从R600开始VLIW 5D式SIMD流处理器结构就一直是AMD所有统一渲染GPU架构的基础，后代产品都是在前代产品的基础上进行规模扩充、特性革新以及架构微调而来。这种变化也就是我们常说的'马甲’，不过'马甲’也存在明显的优势：设计简单、不浪费晶体管、规模易于扩充、温度功耗控制理想、架构换代快、容易加入新特性等。

不过随着逐步进入DX11时代，全新API和新特性带来了以往DirectX 版本看不到的东西，尤其是大量的图形特效可以靠GPU的计算能力进行加速，这一切在要求传统图形渲染能力的同时，对GPU的计算能力也要求十分苛刻。而VLIW架构天生就存在执行效率不高、并行计算能力差等缺点，这也意味着AMD依赖数年的的VLIW式SIMD架构是时候寿终正寝了。

即将登场的HD7000系列显卡架构

AMD下一步的目标是发展“针对图形、计算双重优化的统一可扩展GPU”，“一套面向吞吐量的大规模多线程计算单元架构”，包括多任务多引擎架构、计算单元架构、多级读写缓存架构，同时具备可读写的一级/二级缓存、乱序资源分配、SRAM和全局内存ECC错误校验数据保护、并行原语设定等等。新架构将会摒弃沿用数年的VLIW，改用全新的non-VLIW体系，除了继续巩固3D图形性能，彻底为计算优化将使新架构革新的重点。

2011年底，AMD将正式发布基于Graphics Core Next架构的HD7000系列显卡。新一代核心架构的发布也正式结束了R600'马甲’的一生，但是会不会造就另外一位'马甲’之王，我们就不得而知。AMD新产品的性能更新、研发、销售策略等会不会沿用'马甲’战术呢？我们将拭目以待。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。