Shen Milsom Wilke公司资本和数据中心设计专家罗伯特?麦克法兰:人为错误是导致宕机的根本因素
据研究已得出了结论,高达75%的宕机事故是因为一些人为错误引起的。但是这些人为错误背后又是什么呢?以前,我们很简单地归结为是由于“缺乏培训”,但即便是训练有素的人当他们在忙碌、疲惫或没有真正思考时,或只是认为他们可以走捷径侥幸成功的时候,就仍会犯错误。但实际上可能更倾向于“缺乏规划”。一直以来,很多事情(特别是数据中心)之所以让人们犯错,仅仅是因为他们的布局不合理,或者是不良的标记(如果完全标记了),注定要使一些可怜人陷入一场错误之中,以致于一直所作的工作被理所当然地摆在首位,而原本不该是这样的。
例如,现在几乎所有的服务器都是以“双线”的形式连接到两个不同的电源中心的两个不同的电源插座。根据他们的习惯,电工可能把一个插座连接到配电盘A中的断路器7,另外一个插座连接到配电盘B中的断路器16。他们有可能把电路标签放在机柜内的插座上,这可能导致管理员看不见;还有可能把不符合机柜的编号的标识放在配电盘时间表上。这都很容易导致会错误关闭不同机柜里的电路,或者未能关闭计划的机柜电源。
系统宕机会严重影响员工的士气,因为IT行业向来恐惧故障的发生。小问题就足够糟糕了,而大问题则会耗尽员工的所有精力。IT业已成为新的“公用事业”。人们期望数据系统像电力、燃气和水那样,只是安装在那里而不会发生故障,如果发生故障也能迅速恢复。IT人员非常清楚,一旦故障导致影响企业声誉或危及生命,其将付出极大的代价。日常的压力能促使他们避免宕机。
往往最容易被忽略的系统宕机成本是企业形象。不同的企业,损失可能不同。但对有些公司来说,他们的形象受损可能会超出货币估值。另一种系统宕机的损失则是客户流失。假设一家依赖中央数据中心运输系统的汽车制造商突然因宕机事件而被中断业务。一家依靠准时交货的汽车公司一旦遇到了这种交货延迟,它就会转到他们的第二货源。而这个客户可能永远不会回来了。
宕机是不可避免的。IT是一件有压力的工作。总是又有一个服务器要安装,或者总有其他应用程序要推出,而且很少有足够的时间或资源来仔细地或者彻底地制作规范。有时必须要勇敢地面对管理层,并说,“这个时间表不现实,而且它在今后可能会引发灾难性后果。”必须有一个规章制度,并坚绝要求有适当的规划和程序,其中包括上面提到的所有事情。人为操作是引起故障的主要因素。我们不能把一个IT人员推向错误之后,当宕机发生时,还对其行为感到惊讶。
正常运行协会的内容出版物负责人Matt Stansberry:良好的规划可避免宕机
我借助正常运行协会副会长Rick Schuknecht来回答这些问题。Schuknecht在正常运行时间协会的精英数据中心终端用户网络从事工作。他表示,73%的数据中心宕机事故是由人为错误造成的。人为错误包括训练不佳、维护实践不良和操作管理较差。他说,停机可能会令人非常紧张,还会破坏员工的士气,因为工作与补偿往往以企业的有效目标为基础。
Schuknecht还表示,如果一个公司有一个良好并且适当的记录,他们就可以判断停机故障的根本原因,并确定在短期和长期内所要采取的措施。但是,只有当你建立了适当的有效的记录才可能这样。
还有一些被忽视的宕机后果。例如,金融业会有监管处罚。宕机也可能损害公司的竞争力,如在行业内失去商业信誉或者失去客户群。你愿意把你的钱放在哪里呢?放在无宕机的银行里,还是放在反复宕机的银行里?大多数金融公司有适当的方法来保护或恢复数据,避免失去交易连续性可能会导致的严重问题。
数据中心工作人员可以采用什么措施来避免和缓和系统宕机呢?Schuknecht建议建立良好的设施,计算出每件设备的维修计划,建立员工培训计划,介绍员工该如何及何时回应宕机事件,提供足够的资金用于营运以确保一切正常运作,还要建立一个良好的治理计划,其中站点基础设施要依照生产商规定运行。
数据中心经理ChuckGoolsbee:硬件故障导致宕机
最常看到的两个因素是不可恢复的部分故障和操作设备差错。就不可恢复的部分故障而言,通常的罪魁祸首是基于网络协议和不会导致彻底故障的网络硬件问题。网络硬件和协议正如所料在彻底故障的情况下通常是工作的,如线卡坏掉,失去电力到失去冗余等。但是,真正有问题的是在发生故障过程中,部件如何继续工作。虽然网络硬件常常发生这种问题,但是在电气开关设备和不间断电源设备造成的停机中也有类似的故障,比如在三相配电系统中损坏了一个单相。
相比之下,操作设备差错几乎总是可追溯到缺乏一个特定程序的全面清单,或者有人越轨。所以为了大家,你要有一个流程,并坚持下去!
停机会产生有形和无形的成本。它可能昂贵到超出了财政负担,甚至造成信誉度和信任度的损失。
减轻系统宕机影响的最好办法就是沟通。建立一个沟通策略,并加以利用。培养客户采纳特殊办法。确保有一个带外数据备份。如果沟通得当,你的信誉和信任可能更加完美。
WorldWideFittings公司的技术总监BillKleyman:灾难恢复很重要
业务中断和宕机是IT管理人员(即使是处在较大的公司环境里)不经常思考所造成的事故类型。但是,当宕机事故发生时,它们变成了突发事件。避免停机事故的第一步就是规划。如果发生宕机,而没有为此规划,可以想象得到一些长期的负面的结果。当需要灾难恢复(DR)解决方案时,良好的培训和应急准备将创造一个更加稳定的环境。规划、测试和灾难恢复计划的真实执行将有助于任何环境下都做好应急准备。对于业务中断没有什么秘诀。冗余和备用措施越多,紧急停机事故能处理得越好。
一个稳定的环境可以为工作人员和数据创造一个稳定的工作流程。IT工程师最不想做的事情就是接连收到百封电子邮件或电话说“网络中断。”这会造成不必要的压力,很可能导致在恢复过程中造成更多的错误。规划好一切几乎是不可能的,但做好尽可能的准备工作将有助于减少出错。如果停机故障一旦发生,要保持冷静且解决尽快当下问题。如果有机会,记录好所有的事情。要注意故障的特征,什么坏了,需要修理什么,应如何修理和最终结果。然后,利用这个记录,贯彻到现有的灾难恢复计划中。紧急情况可能会妨碍正常的记录,但要花时间从中学习。在IT世界里,任何事情都有可能发生,有时还会发生多次。
毫无准备或系统没有冗余操作能力可能最终会使公司的损失极高。这意味着什么呢?在最初购买时,IT管理人员选择和购买了较便宜的设备,没有多余的风扇、电源设备、CPU等。这第一步就是一个错误,它反过来对整个环境产生不利影响。比方说,例如,一次功率骤增毁坏了单电源设备的服务器,从而损坏了内部元件。现在整个环境出现问题,机器需要更换。另一方面,我们可以让同样的IT管理人员去花费一些额外的钱来购买更好的电源和配电设备,以帮助保护计算机。在这种情况下,一个简单的电源交换将保证很少或没有停机故障。当停机或业务中断发生时,无形的因素也产生了作用。没有人想要焦虑,因为环境有问题,唯一可行的解决方案就是打发日子。用一点计划来缓解这种压力。你也不想对执行委员会的IT部门失去信心。
如果一个环境需要99%的时间,那么为它做一下规划吧。规划得越多,基础设施会把停机处理的越好。为停机做好准备,下至最简单的元素。这意味着数据中心应该有备用发电机、休眠虚拟机或热站准备在需要的时候随时出现。做好多点数据恢复(云、本地、存储区域网络和远程),并且定期测试这些解决方案。每个环境应该有一定的灾难恢复解决方案。冗余计划越多,就会把紧急情况处理的越好。问些简单的问题。我有多余的互联网服务提供商吗?他们是不同的电路吗?我有备用电源计划吗?我的电池都就绪了吗?我的虚拟环境能处理物理主机故障吗?因为每个环境都是独特的,为停机做的计划与基础设施的要求有关。工作人员应当经过培训来多多了解他们的电源和备份系统。即使是最初级的工程师,准备的越多,整个网络环境会更好地处理停机或中断事故。