打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
谁是‘马甲’始祖? 简析AMD显卡架构进化史
userphoto

2023.05.24 辽宁

关注

【天极网DIY硬件频道】在已经成为历史的AGP时代,ATI在与NVIDIA的竞争中,ATI凭借Radeon8000/9000系列显示芯片的优秀性能一直处于领先地位 。2004年显卡开始转入PCI-Epress时代,NVIDIA在SM3.0特效和多卡协同运算技术上抢占了先机,一时让ATI陷入被动的局面。直到ATI推出全新的R560/570显示芯片,主张像素:纹理=3:1的核心架构,这3:1黄金架构符合当时游戏对显卡硬件资源的需求,让ATI重新走回显卡霸主地位。

X1950GT采用3:1黄金架构

2007年1月微软正式发售跨时代的操作系统——Windows Vista,同时也带来全新的图形显示技术DirectX 10。DirectX 10最大的革新就是统一渲染架构(Unified Shader Architecture),所谓统一渲染架构,就是将传统的VS、PS以及DirectX 10新引入的GS进行统一封装。与传统GPU架构不同,此时的GPU不再分配单独的渲染管线,所有的运算单元都可以处理任何一种Shader运算(不论顶点操作、像素操作还是几何操作)。

DX9/DX10对比

早在AMD收购ATI之前,ATI于2005年与微软合作发布的XBOX 360游戏主机采用的Xenos图形处理器。Xenos采用了统一渲染架构,这是游戏玩家第一次接触到统一渲染架构的产品。

XBOX360最早采用统一渲染架构

Xenos图形处理器,第一次引入了统一着色器架构,这个着色器架构包含了3个独立的着色器矩阵,每个着色器矩阵内有16个5D向量SIMD单元(即一共有48个统一渲染单元),这些SIMD单元既可以执行Vertex Shader也可以执行Pixel Shader,由于当时尚未有DX10技术标准,也可以称之为符合DirectX9标准的统一着色器架构。

ATI在XBOX360游戏主机第一次使用上统一渲染架构,为日后AMD(ATI已被收购)推出的全新R600显示核心打下了基础,并且深深影响了AMD显卡未来几代架构发展。

2007年5月15日是个具有历史性的日子,AMD正式发布了基于统一渲染架构R600的Radeon HD 2900 XT(以及其它低端型号的HD 2000系列)。虽然R600架构类似于Xenos图形处理器,但是在性能上却远远领先于后者。

R600架构

R600采用了5个1D ALU的架构设计,也称为5D Superscalar超标量架构。为了尽可能的提高效率,AMD引入了VLIW5体系(Very Long Instruction Word,超长指令集)的设计,可以将多个短指令合并为一组长的指令交给流处理器单元去执行,比如5条1D指令或者1条3D指令和两条1D指令可以合并为一组5D VLIW指令。这VLIW5体系设计一直沿用至今,证明该设计是相当成功的。

ATI首款统一渲染架构HD2900XT

整体规格方面,Radeon HD 2900XT核心频率为740MHz,拥有320个超标量流处理器,16组纹理单元,采用GDDR3显存,512bit显存位宽,显存频率为1650MHz。R600架构中还集成了Hardware Tessellation技术,这也是目前DX11中火热的硬件曲面细分技术。

作为AMD第一款桌面统一渲染架构GPU的R600相对于Xenos图形处理器没有革命性改变,却加入了不少新技术。但是由于AMD收购ATI事件影响,R600推出时间比NVIDIA的G80晚了半年时间,性能却不尽人意。R600的架构特点也预示着AMD开始的'马甲’路线的开始。

没过多久,AMD在R600的试水失败之后,很快便推出了改进版的RV670架构。核心架构设计上,RV670与R600并没有明显区别,依然是320个流处理器,分为4组SIMD阵列,每个阵列对应一组纹理单元。每5个ALU和一个分支预测单元组成一个流处理器单元,继续着5D的超标量结构。

R670架构

对比R600,RV670做了不少的改进:制造工艺由80nm进化到55nm;PCI-E控制器升级支持2.0版本,带宽倍增;高清解码引擎由原来的Shader解码升级为UVD引擎,支持H.264和VC-1的完全硬解码;显存控制器由512bit降至256bit(实际上R600和RV670的运算能力其实不需要太高的显存位宽);支持PowerPlay节能技术,根据GPU使用率自动调整频率,降低功耗;API升级至DX10.1。

HD3870显卡

RV670架构本质上没有改变,更像是R600架构的工艺改进版。此时AMD的GPU架构开始了'小而精’的发展路线,通过不断优化精简,可以降低研发周期和生产成本,从而在价格上优于对手。也正是这样,AMD显卡往后几代都背负上了'马甲’的称号。

2008年6月份,AMD发布了基于RV770架构的第二代DX10.1显卡,显卡的流处理器单元从上代的320个暴增到800个,AMD采用'小而精’的5D超标量架构容易增加流处理器单元的优势渐渐显现出来。RV770核心架构依然没有改变,也可以看成大块头的RV670'马甲’。

R770架构

RV770的SIMD阵列由RV670的4组增加到10组,纹理单元也相应地增加到10组,整体规格是上一代架构的2.5倍,流处理器单元达到了800个,纹理单元则提高到了40个,光栅单元(ROP)为16个,SP单元的急剧增加也大幅提升了RV770的性能。

HD4850显卡

RV770架构的显卡在市场上大受欢迎,通过对55nm制程工艺的熟练掌握,RV770在规格翻了一倍多的同时并没有大幅增加核心面积,同时功耗控制也非常出色。AMD'小而精’的核心架构策略相当成功,通过简单快速地堆积流处理器单元数目,大幅度高性能和减少开发周期,从而在市场上领先对手——可以理解为'马甲’战术。

2009年9月23日AMD抢先发布了首款DX11图形GPU——Cypress,得益于'小而精’的5D超标量架构,Cypress在硬件规模方面又有了惊人的提升,其中流处理器数量达到了疯狂的1600个。

Cypress核心架构图

从架构来看设计方面来看,Cypress就像是两颗RV770封装在一起,流处理器部分可以看做是“双核心”设计,各项规格也都是RV770的两倍,比如1600个流处理器、80个纹理单元和32和ROP光栅单元等。在流处理器部分,Cypress相对于RV770改进有限,只是加入了DX11新增的位操作类指令,并优化了Sum of Absolute Differences(SAD,误差绝对值求和)算法,指令执行速度提升12倍。

HD5870显卡

Cypress相对RV770在架构方面改进有限,主要是新增了DX11新特性,另外利用40nm和新一代GDDR5显存在功耗控制方面做的非常完美,加上抢先发布性能均衡,受到了很好的市场反响。由于出色的功耗控制,AMD随后推出了HD5970,拥有变态的3200个流处理器的HD5970一生寂寞无对手,成了当之无愧的卡皇。

AMD凭借优秀的'小而精’架构,对上代架构进行修正优化,再套上新显卡型号的'马甲’战术,逐步使AMD显卡走出困境,赢得市场的主动权。

由于台积电代工工艺的严重落后的问题,迫使Radeon HD 6800系列所属的“北方群岛”家族并没有在核心架构方面进行大规模的重新设计,而是基本沿用了R600以来的VLIW5式SIMD流处理器结构,并在诸多细节上做了优化和增强,AMD称之为“第二代DX11设计”。

Barts核心架构图

对比前面的Cypress核心架构,Barts 的改变可谓“微乎其微”。但Barts还是对内核设计做了重新配置,单精度浮点性能最高能够突破2TFlops(每秒2万亿次计算)大关,每秒钟能够处理的像素也能超过240亿,同时曲面细分单元进行了特别增强(第七代),光栅器(Rasterizer)也配备了两个,Hub部分有PCI-E 2.1总线控制器、UVD3硬件解码引擎、CrossFireX管理引擎、Eyefinity显示控制器等,显存控制器则依然是四个64-bit,总位宽256-bit,继续搭配高速GDDR5显存颗粒。

HD6870显卡

在HD6000系列显卡上,AMD完美地给大家奉献了一场'马甲’盛宴。要是说高端的HD6850/6870是HD5850/5870的优化精简,那么HD6700系列就是HD5700系列的完美'克隆’。在HD6000系列的中低端显卡,AMD普遍采用了上一代的显示核心简单更改名字而成。

在2010年12月,AMD发布架构变革的试水产品——HD6970/6950。HD6900系列采用Cayman革新的VLIW4架构。

Cayman核心架构

这次架构的调整,是即将推出全新HD7000系列显卡的试验型产品。整个Cayman最根本的流处理器单元依然是基于VILW体系,只不过由5D调整为4D。VLIW4流处理器单元中的ALU单元减为4个,数量虽然少了但是这种设计减少了指令调度和寄存器管理,反而提升了利用率。

HD6900系列规格

Cayman强化了并行通用计算,增加了一个全局异步寄存器,从而支持异步分配,可以同时执行多个计算内核,这也符合未来通用计算的潮流。Cayman还增强了曲面细分性能、增强画质抗锯齿(EQAA)、增强各向异性过滤与纹理过滤、加入全新功耗管理等。

作为新架构的试水产品,HD6900在架构上稍作调整以便更适合未来的通用计算。Cayman核心架构,可以算是AMD的R600最后一个'马甲’产品。

从R600开始VLIW 5D式SIMD流处理器结构就一直是AMD所有统一渲染GPU架构的基础,后代产品都是在前代产品的基础上进行规模扩充、特性革新以及架构微调而来。这种变化也就是我们常说的'马甲’,不过'马甲’也存在明显的优势:设计简单、不浪费晶体管、规模易于扩充、温度功耗控制理想、架构换代快、容易加入新特性等。

不过随着逐步进入DX11时代,全新API和新特性带来了以往DirectX 版本看不到的东西,尤其是大量的图形特效可以靠GPU的计算能力进行加速,这一切在要求传统图形渲染能力的同时,对GPU的计算能力也要求十分苛刻。而VLIW架构天生就存在执行效率不高、并行计算能力差等缺点,这也意味着AMD依赖数年的的VLIW式SIMD架构是时候寿终正寝了。

即将登场的HD7000系列显卡架构

AMD下一步的目标是发展“针对图形、计算双重优化的统一可扩展GPU”,“一套面向吞吐量的大规模多线程计算单元架构”,包括多任务多引擎架构、计算单元架构、多级读写缓存架构,同时具备可读写的一级/二级缓存、乱序资源分配、SRAM和全局内存ECC错误校验数据保护、并行原语设定等等。新架构将会摒弃沿用数年的VLIW,改用全新的non-VLIW体系,除了继续巩固3D图形性能,彻底为计算优化将使新架构革新的重点。

2011年底,AMD将正式发布基于Graphics Core Next架构的HD7000系列显卡。新一代核心架构的发布也正式结束了R600'马甲’的一生,但是会不会造就另外一位'马甲’之王,我们就不得而知。AMD新产品的性能更新、研发、销售策略等会不会沿用'马甲’战术呢?我们将拭目以待。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
图形与计算的融合,AMD GCN架构解析
从GPU诞生说起:AMD统一渲染架构回顾及展望
超越图形界限 AMD并行计算技术全面解析
高端型号之外,AMD Radeon M400显卡确认马甲
“努力”了两年后,PC处理器为何又重回马甲时代?
2008年电脑DIY六大事记回顾
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服