打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
每天都会出现大量硬件故障,无法上线!美国世界第一超算遇到大麻烦

建造一台超级计算机总是具有挑战性的,但创造业界首个百亿亿级(E级)系统更是会遇到完全出乎意料的遭遇,需要在硬件和软件方面进行大量工作。不幸的是,这种情况发生在了目前全球超算排名第一的橡树岭国家实验室(Oak Ridge National Laboratory)Frontier超级计算机上,它几乎每天都会出现大量硬件故障。

ORNL的Frontier是业界首个设计用于提供高达1.685 FP64 ExaFLOPS峰值性能的系统,使用AMD的64核EPYC Trento处理器、Instinct MI250X计算GPU和HPE的Slingshot互连,功率为21兆瓦(2万千瓦)HPE 构建了系统并使用了 Cray EX 专为横向扩展应用设计的架构,主要用于超高速超级计算机。

虽然从纸面上看,Frontier超级计算机看起来特别好,而且机器系统的硬件部分已经交付,但似乎硬件方面的问题一直在阻止机器上线,并且无法提供给需要大约 1 FP64 ExaFLOPS 性能的研究人员使用。

橡树岭领导力计算设施(OLCF)的项目主管Justin Whitt在接受InsideHP的采访时表示:“我们正在解决硬件方面的问题,并确保我们理解具体是什么问题。为何会遇到如此规模的失败,导致这种规模的系统的平均故障间隔时间是几个小时,而不是几天。"

关于Frontier的潜在硬件故障的传言已经流传了很久。根据InsideHPC的另一篇报道,有人说该系统在Slingshot互连上遇到了问题。此外,还有人表示,AMD的Instinct MI250X计算GPU今年并不像预期那样可靠。请记住,拥有更多流处理器和高时钟的X版本只向特定客户提供。

Whitt没有证实该系统遇到了 Instinct 或 Slingshot 的任何特定问题,但他强调该机器存在许多硬件问题。

“很多挑战都集中在这些 GPU 上,但这并不是我们所看到的大部分挑战。” OLCF的负责人说。"在零部件故障的常见罪魁祸首中,这是一个相当好的分布,因为GPU是一个很大的组成部分。我不认为在这一点上,我们对AMD的产品有太多担忧。"

到目前为止,橡树岭国家实验室的 Frontier 超级计算机并不是唯一一个使用 HPE Cray EX 架构和 Slingshot 互连、AMD EPYC(霄龙)CPU 和 AMD Instinct 计算 GPU 的系统。例如, 芬兰的 Lumi 超级计算机 (Cray EX、EPYC Milan、Instinct MI250X 计算 GPU)提供了 550 PetaFLOPS 的峰值性能,并被 正式列为 世界第三强大的超级计算机。

只有时间才能证明最初承诺于 2022 年上线的 Frontier 超级计算机是否会在 2023 年开始提供给研究人员,因为它仍未正式部署。

原文:

https://www.tomshardware.com/news/worlds-fastest-supercomputer-cant-run-a-day-without-failure


EETOP创芯大讲堂

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
500强超算榜单出炉!AMD持续领跑,最新芯片将打破自创性能记录
商标信息 | AMD
128核EPYC问世,AMD全方位布局人工智能
AMD迎来抗衡Intel的最好机会,但AMD在服务器CPU市场保持耐心
拳打Intel、脚踢NV!AMD发布128核心Zen4c、1530亿晶体管GPU怪兽
人工智能和云计算让芯片业洗牌,英特尔成了最大输家
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服