打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
揭开最后的面纱 AMD8核Bulldozer处理器详解一
2011-9-8 17:01

  【天极网DIY硬件频道】AMD在美国加利福尼亚州斯坦福大学召开的「Hot Chips 23」大会上,公布了计划于今天下半年推出的新CPU架构「Bulldozer」。虽然在去年的Hot Chips大会上,AMD公司已经公布了有关Bulldozer架构的概要,不过此次AMD公司对该架构进行了补充说明,并且公布了芯片的全部构成以及节电部分的概要。

  Bulldozer采用融合了2个整数运算核心的簇(Clustered)型的微处理器架构。两个独立整数运算核心各自负责各自的线程指令,不过浮点运算单元和命令解码器等前端以及L1指令缓存和L2高速缓存则为两个整数运算核心所共享。因此该架构为部分共享,提高双核心构成效率的处理器架构。而融合了双整数运算核心的Bulldozer Module也就成为了基本单位。

  Bulldozer概要

  Bulldozer概要

  Bulldozer架构

  Bulldozer模块概要

  此次AMD所公布的信息,主要焦点为Bulldozer核心以及架构的整体。首先登场的Bulldozer处理器为内置了4个Bulldozer Module的8核心处理器。AMD为这些CPU核心起了不同的代码。其中8核心处理器核心代号为「Orochi」,基于Orochi的桌面处理器代号为「Zambezi」,1~2插座服务器版本产品代号为「Valencia」,1~4插座服务器版产品代号为「Interlagos」。这些处理器都将会使用GLOBALFOUNDRIES的32nm SOI(silicon-on-insulator)工艺。

  Hot Chips大会上,AMD展示了Bulldozer 8核心/4模块配备的Orochi全部内部构成。Orochi的CPU核心以Bulldozer Module为单位,通过「System Request Queue (SRQ)」直接连结,以内存控制器和HyperTransport控制器互联。HyperTransport控制器有4个端口,内存控制器为双通道。L3缓存使用SRQ和Crossbar连接。

  Orochi的Block diagram

  Orochi核心照片

  北桥

  8MB的L3缓存分成4个独立的2M缓存,各个辅助缓存组成结构为4向结构。另外各个缓存都可以通过SRQ以及Crossbar拥有各自独立的连接,并且可以实现并列运行。L3缓存为共享,但是依然可以实现分区。另外值得介绍的就是「Probe Filter」探测过滤功能。HperTransport最多支持4个x16连接,而每个x16链接又可分解成2个x8。关而一个核心4链接的构成,也是后面介绍的G34封装所必要的。

  北桥DRAM控制器和缓存

  HyperTransport概要

  AMD在2003年K8架构上就引入了SRQ以及Crossbar,以及2001年AMD推出的K8(Hammer)的北桥部分也同样如此,Bulldozer均有继承。AMD表示K8架构最初就是以多核心化为设计前提,而在Bulldozer上继续得到延续。

  北桥部分概要

  据说Orochi为了解决增加的处理器节点的资源竞争而进行了改进。Intel则采用了多重处理器的发展方向,从Sandy Bridge时代开始就引入了替代Crossbar的内部环形总线(实际上从服务器版Nehalem和Larrabee上开始采用)。而AMD则继续使用Crossbar。

  另外就是AMD Bulldozer架构8核心处理器「Orochi」的核心尺寸为315平方毫米。而单个具备2核心的Bulldozer Module的面积为30.9平方毫米,约为芯片总尺寸的10分之一。其核心尺寸与当前的45nm K10的6核「Istanbul」的346平方毫米相比要小了一圈。而与作为AMD主流产品的「A系列APU(Llano)」相比的话,则要大50%,因此其可以成为AMD最大尺寸的桌面CPU。当然与服务器版8核心服务器相比的话,其核心面积为其四分之三左右。

  AMD CPU发展路线图

  Orochi和Sandy Bridge 8核心比较

  不过未来Sandy Bridge的8核心处理器通过SMT(Simultaneous Multithreading)技术,也就是超线程技术,可以模拟实现16核心。而AMD面向高端服务器的处理器,将2个CPU核心封装在一起也可以获得16核心的产品。其前提就是不进行核心尺寸的巨大化,目前为止300平方毫米左右的核心尺寸一直是AMD所坚持的战略。

  Bulldozer核心的CPU将会推出3个不同系列的产品,这个与当前K10(Hound)的构成是一样的。分别为面向高端桌面的「Zambezi」,1~2插座服务器的「Valencia」,以及面向最大4插座性能服务器产品的「Interlagos」。Zambezi为4~8核心,Valencia为6或8核心,Interlagos由于内置了2个MCM(Multi-Chip Module)封装,核心数量为12或16个。Zambezi将采用兼容AM3插座的升级版「AM3 」接口, Valencia则使用当前6核心 Opteron 4000系列使用的「C32」插座,Interlagos则使用当前12核心Opteron 6000系列使用的「G34」插座。

  Socket AM3 与Zambezi

  桌面Zambezi构成

  AM3 概要

  Hot Chips上同样公布了各个封装的接口信息。其中桌面Zambezi采用的是940针AM3 封装,与当前的AM3平台一样,同样支持双通道DDR3内存接口Unbuffered DIMM(UDIMM)内存。内存最大频率为DDR3-1866,内存峰值带宽为29.9GB/sec。低电压版DDR3内存同样支持。HyperTransport与AM3一样为单链接,带宽支持5.2GT/s。支持芯片组为AMD 990FX/990X/970系列。

  Valencia采用的是1,207LGA C32封装。支持双通道内存,包括有UDIMM,Registered DIMM(RDIMM)和Load-Reduced DIMM(LRDIMM)内存。最高内存频率支持为DDR3-1600。

  2插座Valencia

  LGA C32概要

  C32平台概要

  C32双插座概要

  C32 HyperTransport为3向链接,不过普通的2插座系统CPU间的连接为单链接Coherent HyperTransport(cHT),与芯片组连接为单链接Non-Coherent HyperTransport(ncHT)。AMD HyperTransport引进初期曾表示这是拓扑结构,很有可能会使用双向链接实现CPU间的连接,不过到现在这个构想仍然没有使用。C32插座HyperTransport最高支持6.4GT/s。

  芯片组方面为服务器SR5600系列中的AMD SR5690/SR5670/SR5650,原有的C32主板通过BIOS也能对新处理器提供支持。AMD公司从很早之前就一直坚持新老CPU兼容支持的发展方针,而此次则继续得到了延续。

  而最高支持4插座的Interlagos,使用的是1,944针LGA G34封装。G34由于同时封装了2个MCM,这样就增强了CPU核心和接口数量。这样Interlagos最高可内置有8个Bulldozer Module,这样处理器核心数量也就达到了16个(因为成品率的原因,12核心也会因此而出现)。

  LGA G34概要

  LGA G34采用1944针封装

  G34概要

  G34应用举例

  MCM2.0概要

  Interlagos包含的2个8核四模块通过HyperTransport连接。12核心「Magny-Cours(manikuru)」使用1个x16和1个x8共计24个lane连接。普遍认为这个构造同样会适用于Interlagos。

  G34封装使用了4链接的x16 HyperTransport。而2个核心则使用的是不对称链接。从主核心的2链接x16和1链接x8,这样就相当于x40链接,而从核心1链接的x16和1链接的x8输出,则总计为x24 lane。G34的HyperTransport,其最高传输速率达到了6.4GT/s。

  这样内存接口,2个8核四模块总计可实现4通道支持。内存支持方面则与C32一样,支持UDIMM,RDIMM,LRDIMMDDR3-1600。内存带宽峰值数据为51.2GB/s。

  Bulldozer的3个系列产品系列全部为与Orochi核心相同的独立CPU,而与GPU核心合并在一起的「APU(Accelerated Processing Unit)」产品则会于明年(2012年)推出。AMD公司表示基于Bulldozer Core的处理器产品的份额,将会达到很大的比重。

  ●管线变化情况介绍

  AMD于今年2月在ISSCC(IEEE International Solid-State Circuits Conference)上表示,Bulldozer的FO4(Fanout-Of-4)Gates/Cycle数量,比起以前的AMD K10(Hound)系列要少20%以上。如果FO4减少了,晶体管性能以及频率提升会更加容易。总之Bulldozer比起K10延迟会减少20%以上,速度也会提升25%以上。当前K10系列处理器Turbo时频率达到了3.5~3.7GHz,而FO4减少一定比率的话,将可达到4.4~4.6GHz。

  另外就是通常为了减少FO4,管线会变长,而分支预测会得到增强。因此Bulldozer的管线与K10相比会有很大的改变。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
微架構
CPU市场要变天了?
socket am2是什么意思 socket am2是什么主板
AMD第二代FX处理器的心脏Piledriver架构及市场分析
超能课堂特刊:千磨万击还坚劲,看AMD 50年伟大发展历程
赛博朋克2077无法利用锐龙处理器SMT
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服