上周,亚马逊在都柏林数据中心遭雷击,当时亚马逊表示数据中心需要10天左右时间来维修。本周,亚马逊发布了一份详细的事故报告。 为什么发电机无法启动
一般来说,当市电中断时,数据中心会无缝启用备用发电机。可编程逻辑控制器(PLC)能够实现发电机与供电系统的同步。在这种情况下,其中一个PLC没有完成与发电机连接。目前,亚马逊观测了该PLC的状态和行为,主要原因是PLC的接地故障导致它没有正常工作。“我们正在与供应商,并进行进一步分析,以确认所涉及的设备。”亚马逊表示,将增加更多的冗余和其PLC的隔离,并与供应商的工作添加一个备份的PLC。
管理软件存在的问题
在一些情况下,软件程序会管理复杂的复苏过程。第一次停电后不久。“管理服务器接收请求,要求继续管理受影响区域。但由于在受影响的可用性区域管理服务器无法访问,路由到这些服务器的请求失败。其次,在管理服务器接收到请求,但这些请求开始大量的排队。“我们重载管理服务器接收请求,等待这些排队的请求完成。这两个因素的结合,导致长时间的延时和更高的错误发生。”
EBS软件的问题
在停机中,受影响最严重是亚马逊的弹性块存储(EBS)。软件错误检测到停电前,在恢复过程中产生了诸多问题。