打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
跳票一年半的英特尔Sapphire Rapids,还值得期待吗?
userphoto

2022.12.13 上海

关注

在跳票一年半后,基于Intel 7工艺的Sapphire Rapids至强可扩展处理器终于开始交付客户试运行。依照英特尔推广能力,Sapphire Rapids以及为其搭建的Intel Eagle Stream平台一旦启用,很快将会大规模计算、数据中心中得到推广,帮助英特尔重夺商用领域的市场份额。

在物理层面,Sapphire Rapids最多可以拥有60个核心,LGA4677封装接口,LGA4677封装接口,八通道DDR5-4800,扩展连接提供80条PCIe 5.0/4.0通道,最多可以集成64GB HBM2e内存。

长时间的跳票说明了Sapphire Rapids饱受各种问题的困扰,引用Intel高级研究员Ronak Singhal的观点,Sapphire Rapids会优先保证质量,而不是发布的时间。因此我们能看到首发的Sapphire Rapids最多56个核心,而非设计层面的完全体。

但可以确定的是Intel Eagle Stream平台与Sapphire Rapids的到来,终于能够帮助英特尔在服务器市场竞争中解决核心数量不足的难题,并寻找商用解决方案新方向,引入x86高级矩阵扩展(AMX),CXL 1.0,DDR5,PCIe 5.0等新技术。

因此在1月份正式发布之前,不妨让我们花点时间,一起来了解一下这款被延期数次的Sapphire Rapids和Eagle Stream平台。

全员Golden Cove

与消费级处理器不同的是,Sapphire Rapids只有P-Core,即全员Golden Cove,并首次使用芯粒(或者称为小芯片)封装,利用嵌入式多芯互连桥技术(Embedded Multi-die Interconnect Bridge,EMIB)最大限度的减少延迟和拓宽带宽,核心数量也进一步提升,因此被英特尔发称为十年来数据中心级处理器最大的提升。

源自于Alder Lake的Golden Cove与Ice Lake 的Cypress Cove相比,单线程IPC性能提升19%,主要得益于架构发生较大变化,包括:

16B → 32B 长度解码

4-wide → 6-wide 解码

5K → 12K 分支目标

2.25K → 4K μop 缓存

5 → 6 宽分配

10 → 12 个执行端口

352 → 512 条目重排序缓冲区

服务器上的Golden Cove将围绕多线程表现性进行,不仅启用AVX-512,并且每个内核配备2MB二级缓存,与最新的13代酷睿中的Raptor Cove相当,支持x86高级矩阵扩展(AMX)和加速器接口架构指令集(AIA),以支持对加速器和设备的有效调度、同步。

AMX指令用于加速机器学习速度,属于DL Boost系列的AVX512_VNNI、AVX512_BF16之后的第三项指令,与前两者均建立在AVX512之上不同,AMX自带存储和操作的独立扩展,它引入了一套新的矩阵寄存器堆,包括8个1024-bit寄存器,调用方式则与AVX512相似,因此在整体结构上不需要做出修改,能够与其他x86交错使用。同时在调用矢量和矩阵指令时,每个内核都会有独立的细粒度电源控制器,以避免消费级CPU在运行AVX时候遇到频率下降的情况。

AIA提高了计算核心和加速器之间的同步效率,用来支持调度、信号与同步,同时核心与加速器之间还使用了共享内存,以提升并发进程、容量和虚拟机的效率。

英特尔将AIA描述为基于PCIe的加速器,并围绕AIA推出了两个强力的技术,其中一个是在Skylake上已经出现的Intel Quick Assist Technology(QAT)技术,配套PCIe加速卡可以不消耗太多CPU资源实现压缩与解压,最高支持400Gb/s对称加密,是上一代的两倍。

另外一个则是英特尔数据流加速器(Data Streaming Accelerator,DSA),这是一种高性能数据复制和转换加速器,用于DMA重映射硬件单元或者IOMMU输入输出的内存管理单元将数据从存储和内存传输到系统的其他部分。其中DSA向来是特定超大规模计算客户的需求,他们希望通过DSA完成内部的云架构部署,并扩展到英特尔的其它基础设施处理单元中,在EGS平台中,DSA相当于对Purley (SKL+CLX) 平台上的Crystal Beach DMA的升级。

除此之外,Sapphire Rapids还支持半精度AVX512_FP16指令用于加速AI工作负载,并作为DL Boost策略的其中一部分。同时FP16指令还可以作为AMX的一部分使用。

另外CXL被认为是未来技术升级的主要方向,作为全新的连接标准,CXL能够在PCIe的基础上实现数据传输之外的工作,三个分支分别为CXL.io,CXL.cache和CXL.memory,但Sapphire Rapids不包含CXL.memory协议相关内容,因此你会在Sapphire Rapids和EGS平台宣传中,仍然只会看到最高支持CXL 1.0标准。与此同时,英特尔也已经明确在下一步更新中推动CXL 2.0规范。

连通每一个芯粒

在Sapphire Rapids之前,你看到的所有至强可扩展处理器都是单芯片状态。通过一块硅片来实现内核之间的快速互联和统一的电源管理。现在我们已经知道随着工艺节点越来越小,一整块硅片的加工和批量生产已经越来越难,特别是堆高核心数量的时候,成本会明显增加,这也是为什么AMD更早启动分割成若干个芯粒的设计原因之一。

通过更小的硅片设计,能够帮助英特尔更好的实现量产,并根据不同的功能和特性提供可选配置,同时也可以在同一块处理器上获得更大的芯片面积和更多的晶体管数量。英特尔表示每个芯粒的面积为400mm2,4个芯粒加起来就能达到1600mm2

数个芯粒封装最简单的封装就是通过处理器的基板连接,本质上相当于PCB走线,但会带来连通性和功率损耗两大问题。因为通过PCB传输数据会消耗更多的能量,并且带宽会低很多,无法做到硅那般密集,因此还要仔细考虑PCB路线规划和距离,这是在单芯片设计时从来不会考虑的。

为了克服传统封装遗留下来的问题,设计团队通常会考虑硅连接的方式,也就是将所有芯粒放在一整个硅片上,让硅片作为中介层,提供更好的通讯能力和功率。这样的做法称为2.5D封装。这套封装的成本比传统封装形式稍高,但效率提升也显而易见,但前提是中介层必须做到比所有硅片加起来都要大。

英特尔Sapphire Rapids选择了一套可以克服中介层缺点的方式,即在基板内部内置超小型中介层,通过嵌入到预先设置正确位置,使得芯粒之间实现互联,在物理上尽可能接近的那单芯片设计系统。这套方式被称为嵌入式多芯片互连桥接技术(Embedded Multi-Die Interconnect Bridge,EMIB)。

事实上EMIB技术已经被英特尔推进了十多年时间,这套技术目前达到了是三个主要阶段,即能够以高良率桥接嵌入到封装中,能够以高良率与芯片桥接,能够高性能连接两个硅片。其中高性能连接实现并不容易,两个芯粒之间会由于性能、发热量、热膨胀系数不同,连接与桥接稳定性被削弱。在此之前,英特尔EMIB主要是围绕CPU/GPU连接高带宽内存的设计运行,直至2019年才通过EMIB将两个FPGA芯粒连接到一起,完成了性能攻关。

在Sapphire Rapids上,4个芯粒依靠10个EMIB完成连接,连接间距为55微米。照理说4组芯粒之间用2个EMIB连接的话,使用8个EMIB即可,那么为什么要用到10个EMIB?这里要从Sapphire Rapids的设计说起。从系统层面来看,Sapphire Rapids作为完整处理器,需要考量到在主板上的布局问题,因为PCIe、QPI接口不是均匀散布在CPU周围,在横向连接的时候使用了3个EMIB,纵向保持2个,最终3x2+2x2=10个EMIB。

聊聊芯粒内部

在每个芯粒中,包含有核心、缓存、Mesh网络、2个64位DDR5内存控制器、UPI通道、加速器通道和PCIe通道。虽然从演示图片来看,四个芯粒的功能区都是对称相等的,只需要旋转对称即可。但实际制造中,硅晶圆镜像布局必须完全重新设计。因此Sapphire Rapids本质上设计了两套芯粒布局,并最终以2x2的方式变成现在这样的组合。

这里可以提一嘴第一代AMD EPYC,同样使用了2x2芯粒布局方式,但AMD使用旋转对称方式,即在硅片上创建了4个连接口,每次旋转只使用其中三个。这样的设计方式以牺牲芯片面积为代价,也帮助AMD控制住了研发成本。而在EPYC后续的设计中,AMD使用了中央IO芯片的方式解决了这个问题,设计上也更为合理。

两套芯粒方案布局的英特尔显然没打算使用中央IO芯片的设计方案,但效率得到了很好的保障。由于每个芯粒都拥有2个64bit,也就是128bit DDR5内存接口,4个芯粒合计获得512bit DDR5,使用8个64bit内存控制器对每个插槽8个或者16个内存模块进行控制,即使在少内核版本的入门级至强处理器中也会保持这样的特性。原因是为低端处理器专门屏蔽和删减内存控制器本身就是很高的成本。

当然,针对更低端的市场,英特尔还会准备单个芯粒版本的Sapphire Rapids,核心数量和内存通道也会缩减到四分之一。

定制的HBM

Sapphire Rapids带来另一个重大变化是将包含HBM版本,第一个客户是美国阿贡国家实验室的Aurora Exascale超级计算机项目,每个芯粒都会获得一个单独的HBM封装,考虑到空间布局,HBM不是传统的方块形状,而是定制的长方形。

因此使用HBM封装的Sapphire Rapids尺寸也更大一些,达到100x57mm,而非Sapphire Rapids标准版的78x57mm。HBM将以类似于傲腾的方式运行,作为缓存或者CPU的L4缓存使用。同时HBM也会增加封装功耗,进一步影响CPU频率,具体还是要看客户对至强处理器的实际需求进行取舍。

UPI 2.0拓展

在设计中,英特尔希望能够最高支持8个CPU同时协作运行,并为其增加了带宽,把Ice Lake时代的通道数量升级到了4个,并转向支持UPI 2.0。因此每个Sapphire Rapids都包含4组UPI 2.0 x24,以确保与其他处理器进行连接。

8个插槽设计形成一个立方体拓展结构,4个CPU为一组,如下图所示,每个CPU都能在结构中找到另外3个CPU与之组合,最终实现8槽位CPU拓展。

写在最后

按照最初设计预想,英特尔Sapphire Rapids推出应该需要与AMD Milan或者Milan的3D V-Cache缓存堆叠版本展开竞争。但实际上Sapphire Rapids推出的节骨眼不得不面临AMD Zen 4的次时代挑战。但英特尔服务器级处理器的优势永远不是核心数量那么简单,通过特定的加速器优势,Sapphire Rapids仍然会成为未来一段时间服务器市场换新的主要考量。

从PCIe 5.0、DDR 5到内核的升级,也将带动服务端新一轮产业升级,再加上转向芯粒方式提升量产成功率,Sapphire Rapids后续表现依然让人期待。只是在对手拉着Fabless策马狂奔的时候,留给英特尔IDM模式反击的时间,也已经不多了。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
打破Chiplet的最后一道屏障:全新互联标准UCIe宣告成立
首款英特尔W790主板现身 用于全新工作站处理器
时隔三年英特尔 HEDT 平台卷土重来:24 核起步,最高 112 核
最详细!英特尔公布未来三年制程工艺和封装技术路线
新线路图显示Intel 2021年的Xeon将用上LGA4677插槽,支持PCIE 5.0
英特尔Xe-HPG显卡正在出样,4代可扩展至强支持HBM
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服