美国劳动节(9月第一个星期一)周末,亚马逊网络服务中心的一个数据中心发生断电,导致部分客户数据丢失。
我们被告知,当电源耗尽,备份生成器随后出现故障时,一些虚拟服务器实例就会消失,而一些云承载的卷就会被销毁,必须从备份中恢复(在可能的情况下)。
今天一位注册读者向我们透露,周六上午,亚马逊的云业务开始在其us - east -1地区遭遇崩溃。
我们的情报人员告诉我们,他们在Amazon的云托管Elastic Block Store(EBS)中有超过1TB的数据,这些数据在宕机期间消失了:他们被告知“与您的EBS卷相关的底层硬件发生了故障,与卷相关的数据不可恢复。”
我们的读者要求保持匿名,他能够手动从大约8小时前方便地拍摄的EBS快照中恢复数据。没有这个备份,他们可能无法恢复任何丢失的信息:亚马逊的工程师们能够恢复绝大多数被击落的系统,尽管不是所有的存储容量都能在这次硬着陆中幸存下来。
AWS工作人员告诉那些不幸的客户,尽管他们试图恢复丢失的比特和字节,但有些1和0被永久打乱了:“少量的卷是驻留在硬件损失的不利影响的力量。但是,由于power事件造成的损坏,这些卷的底层EBS服务器还没有恢复。
“在进一步尝试恢复这些卷之后,它们被确定为不可恢复的。”
与此同时,一个客户和技术顾问Andy Hunt,不仅在推特上抱怨说,他们的数据在断电时被破坏,但还声称失败的原因并不是迅速传达到用户:“AWS电源故障,备用发电机失败,造成他们死亡EBS服务器,它带着我们所有的数据。然后他们花了四天的时间才弄明白并告诉我们。
“提醒:云只是莱斯顿的一台电源不好的计算机。”
记者无法联系到AWS发言人置评。
“受损”
虽然AWS的状态页面上公布了一些停机时间的细节,但El Reg看到了一系列更详细的通知,这些通知向客户解释了这个错误。
就在 11:00 PDT之前,AWS指出,“在US-East-1地区的六个可用区域之一的十个数据中心中,有一个出现了公用电力故障。备用发电机立即启动,但由于我们仍在调查的原因,在 06:00 PDT左右开始迅速失灵。”
“这导致该可用性区域中7.5%的实例在 06:10 PDT之前失败,”报告继续说道。“在过去几个小时内,我们已经恢复了大多数实例,但在可用性区域内仍有1.5%的实例有待恢复。EBS也存在类似的影响,我们将继续恢复EBS中的卷。在该区域启动新实例将继续正常工作。”
大约几小时后,在太平洋标准时间13:30分,AWS澄清并扩展了它的说明如下:
在 04:33 PDT,位于US-East-1地区六个可用区域之一的十个数据中心之一出现了公用电力故障。我们的备用发电机立即启动,但在06:00 PDT左右开始失灵。这影响了可用性区域中7.5%的EC2实例和EBS卷。
在PDT为 07:45 时,受影响的数据中心已完全恢复供电。到 10:45 PDT时,除1%以外的所有实例都恢复了,到 12:30 PDT时,只有0.5%的实例仍然受损。自影响开始以来,我们一直在努力恢复剩余的实例和卷。少量剩余的实例和卷托管在硬件上,这些硬件受到断电的不利影响。我们将继续努力恢复所有受影响的实例和卷,并将通过个人健康仪表板与其余受影响的客户进行通信。为了立即恢复,我们建议尽可能替换任何剩余的受影响的实例和卷。
因此,根据Amazon的说法,实际上,在美国西海岸时间周六凌晨,AWS数据中心断电,一个半小时后,备份生成器发生故障,在可用性区域内,每10台EC2虚拟机和EBS卷中只有1台宕机。
几个小时后,99.5%的受影响系统已经恢复,而在那些仍然“受损”的系统中,有些是不可恢复的,这迫使订阅者取出备份——假设他们保留了备份。 |