打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
谷歌数据中心服务器温度过高,以至于CPU被自动遏制?

欧界报道:刷赞平台

最近,谷歌表示,一组用于移动服务器机架的轮子压坏引发了连锁反应,结果导致一些用户无法正常使用搜索、Gmail及其他服务。 这是谷歌的工程师发现后轮的小脚轮坏掉了,最终导致机器过热,压坏的服务器机架轮子搞砸了冷却系统,导致CPU性能受到遏制。

其中一个数据中心的一批服务器开始温度过高,以至于CPU被自动遏制,而事后查明根本原因是一组机架轮子承受不住谷歌的云设备的重量。谷歌云解决方案架构师Steve McGhee表示,谷歌用户虽然有很大的可能不会注意到机架轮子压坏所引起的错误。但是一连串事件导致CPU的性能受到严重遏制,从而导致“用户伤害”。所幸的是,这起事件不如去年6月的那起事件来得严重,那起事件是由谷歌的自动化软件出现故障引起的,导致了Gmail、YouTube和客户的应用程序随之崩溃。那起事件促使谷歌向客户郑重道歉,并承诺将来会做得更好。

这回谷歌决定向公众表明它是如何不遗余力地找出故障的根源,哪怕这些故障并没有对用户造成明显的影响。最近一名站点可靠性工程师注意到边缘网络上用来缓存用户频繁访问的内容的机器出现错误激增后,谷歌开展了调查,这次事件因此浮出水面。这些机器立即被停掉,防止它们影响客户,让其他机器可以收拾残局。谷歌工程师注意到了一些边界网关协议网络错误,但它们的特征表明问题出在机器上,而不是出在路由器上。进一步调查发现,边缘网络上的机器中的内核消息显示CPU时钟频率受到遏制。工程师们发现,故障系统被隔离了在单个机架上的机器上。所有这些调查都是远程进行的。工程师们无法解释为什么机架过热到足以引起内核错误,于是要求谷歌的现场数据中心工作人员切实检查一下出问题的机架。

总而言之,目前尚不清楚为什么车轮被压坏,但谷歌工程师担心这可能是一个更广泛的问题,于是他们换掉了容易出现车轮坏掉导致倾斜这同一个问题的所有机架。这个问题已促使谷歌重新考虑建造数据中心时如何将新机架移入到数据中心。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【新思路】由内而外——围绕服务器机架构建数据中心机房
公司机房搬迁方案
谷歌开发自有芯片 英特尔应该感到恐惧
PLC现场工程师工作指南
服务器入门术语知识
华为鲲鹏芯片
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服