数据中心检查清单:响应概要
在遇到数据中心宕机的初始阶段,我们可以参考如下的清单来判断我们需要做什么。具体需要根据发生的事情的情况来决定选择哪些步骤以及其顺序是怎样的。比如说,掉电故障应对的步骤和火灾应对的步骤就不太相同。在制定灾备计划的时候,请考虑到如下的方面。
场景 1: 电源故障
步骤采取措施备注
1了解电源故障的程度,查看是否有备用电力系统拨打相关人员手机,检查电力供应,在检查的时候使用可充电的手电筒照明
2检查确保是否需要人员疏散尽快与核心IT管理人员协商以判断
3评估电源故障对公司的潜在损害;确保核心数据有备份并得到了妥善的管理尽快与核心IT管理人员协商以判断
4 联系高层管理人员告知高层管理人员最新情况
5联系公用事业公司如果电话不能使用的话就使用手机联系,并安排紧急抢修
6判定电源故障的原因,并采取补救措施配合公用事业公司、电力技师以及相关人员的工作
7预估何时数据中心能重新恢复运行与核心IT管理人员、公用事业公司及相关人员协商
8再次联系高层管理人员并及时告知最新进展告知响应及补救措施并汇报掉电后的进展情况
场景2:服务器故障
步骤采取措施备注
1了解服务器故障程度,数据丢失情况以及其他的潜在风险拨打相关负责人的手机并坚持出故障的服务器
2开展补救措施,比如检查电源供给,尝试服务器重启,运行诊断程序根据需要联系相应的设备提供商
3评估服务器宕机对公司的影响,确保核心应用和运行在该服务器上的数据都有备份并得到了妥善的保管尽快与核心IT管理人员协商以判断
4判断服务器宕机的原因,并采取补救措施配合相关负责人和厂商的工作
5预估何时服务器能恢复正常运行与核心IT技术人员及厂商协商以判定
6联系高层管理人员并及时告知最新进展告知响应及补救措施并汇报服务器宕机后的进展情况
场景3:数据中心火灾
步骤采取措施备注
1评估火情以及相关损失程度拨打相关负责人员的手机
2使用现有灭火措施比如洒水装置以及手提式灭火器如果火势难以控制,需要尽快封锁相关区域以免人员伤亡
3拨打119并告知相关情况
4疏散建筑物里的人员尽快与核心IT人员在指定集合地汇合
5如果有可能激活数据备份方案以保护当前数据如果远程站点的存储设备可用,马上使用它们
6一旦火情结束,开始预估火情与IT负责人、建筑物负责人以及设施管理负责人协商判定
7联系高层管理人员并及时告知最新进展告知响应及补救措施并汇报火灾后的进展情况
大规模灾难的响应清单
如上所描述的响应顺序多半是应对典型的数据中心灾难。不同的企业组织遇到不同情况的时候需要采取的响应步骤也不尽相同。因此在采取响应措施的时候需要灵活处理,根据遇到问题的特点和严重程度来修改响应步骤。
在应对较大规模数据中心灾难的时候可以参考如下的数据中心清单。在做这些步骤之前,需要根据具体的问题参看之前建议的步骤,并确保这些步骤也在灾备计划中。
响应清单:建筑物损毁
步骤采取措施备注
1联系受影响的业务部门,建议他们准备搬到另一地点(或者在灾难恢复计划中指明的方案)按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议
2联系外部组织(比如,厂商、供应商、快递公司和存储公司)来安排紧急服务安排按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议
3如果硬件系统被损坏或摧毁,激活恢复硬件的程序按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议
4如果软件(比如,操作系统、应用)已经被损坏或摧毁,激活恢复损坏软件的程序按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议
5如果通信系统和网络服务受到损坏或影响,激活恢复它们的程序按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议
6如果邮件/黑莓服务被损坏或摧毁,激活恢复这些操作的程序按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议,在邮件/黑莓服务被损坏时,业务部门可能需要使用其他的通信方式,比如,短消息、社交网络等
7如果关键数据被损坏或摧毁,激活数据恢复程序按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议
8如果文件或文档被损坏或摧毁,激活恢复损坏文档的程序按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议,如果通过备份重新恢复数据的方式,在一天内无法解决这个问题的话,请与员工或其他股东讨论如何管理现有的操作
9如果文件或文档被损坏或摧毁,激活恢复损坏文档的程序按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议,如果通过备份重新恢复数据的方式,在一天内无法解决这个问题的话,请与员工或其他股东讨论如何管理现有的操作
10与管理层确认是否数据中心工作人员需要搬到新的位置与主要的IT员工,公司管理层或其他人会面
11与公司工作人员和其他内部或外部的工作组一起开始讨论新数据中心的选址,比如临时服务托管安排,以及在新数据中心建好之前租赁一个临时的数据中心供使用灾备计划应该包含这部分内容,因此主数据中心和辅数据中心都应该被安排好
12开始并协调各方面资源为搬迁到新的数据中心做准备灾备规划中应该已经包含了这部分内容
13定期给公司管理层汇报最新进展灾备规划中应该已经包含了这部分内容
14组织并定期开展恢复团队会议灾备规划中应该已经包含了这部分内容
以上步骤的前提是相关的方案已经被制定出来,用于针对列出来的各种场景,比如邮件系统恢复,硬件和软件系统恢复、数据恢复、文档恢复和搬到另一个数据中心。
灾难后的评估
一旦情况得到了缓和,恢复过程可以开始之后,就应该评估这个事件,确认发生了什么,采取了什么行动,还有什么没有做。要经常地组织和开展实用性的会议以帮助汇总一些重要的数据,因为有些可能在后面的保险索赔甚至法律诉讼上需要用到。
补充的数据中心灾难恢复规划资源
根据需要制定的详细程度不同,数据中心灾难响应的过程可以非常复杂。一个让过程变得更容易的方式是看看现有的标准以及数据中心操作流程。下面将列举三条有用的准则:
标准与科技美国国家实验室的SP 800-34标准 “信息技术系统应急计划指南”
2008年国际标准化组织标准ISO 24762 “信息与通信技术灾难恢复服务指南”
2011年国际标准化组织标准ISO 27031“信息与通信技术业务可持续性的准备指南”
在规划一个数据中心灾难恢复计划的时候,需要注意下面的几点:
1.需要得到高层管理的支持,这样计划就会有资金上的扶持,有文件证明并且能被有规律的执行。
2.认真的执行数据中心灾难恢复过程:计划不需要很长,但需要包含现在准确的信息。
3.在流程中考虑使用曾经使用过的标准。
4.在收集并整理了足够的正确信息后,尽可能的让流程简洁明了。
5.制定好流程后和其他核心部门再共同审阅一次,以确保对环境的估计准确无误。
数据中心受损将可以严重的影响到业务的正常运行。当有些公司决定通过再建一个新的机房或者从第三方机构租赁一个机房作为灾备方案的时候,我们建议详细评估数据中心的运用情况以及潜在风险,这对灾备过程的开始是有着重要意义的。当我们有着一份做足准备的灾难恢复计划在手,尤其是包含有详细的复原和恢复的步骤,这对让数据中心受损程度最小化是有很大帮助的。