专业的信息化与通信融合产品选型平台及垂直门户
注册 登陆 设为首页 加入收藏
首页 企业新闻 招标信息 行业应用 厂商专区 活动 商城 中标信息

资讯
中心

新闻中心 人物观点
厂商专区 市场分析
行业
应用
政府机构 能源产业 金融机构
教育科研 医疗卫生 交通运输
应用
分类
统一协作 呼叫客服 IP语音 视频会议 智能管理 数据库
数字监控 信息安全 IP储存 移动应用 云计算 物联网

TOP

网络问题导致更多的数据中心中断
2019-03-26 16:54:39 来源:IT168 作者:【
关键词:数据中心
 
断电是数据中心中断的常见原因,但它们不是唯一的罪魁祸首。随着企业计算环境变得越来越复杂,IT系统和网络故障导致大量数据中心宕机。

  断电是数据中心中断的常见原因,但它们不是唯一的罪魁祸首。随着企业计算环境变得越来越复杂,IT系统和网络故障导致大量数据中心宕机。
  Uptime Institute一直在研究公开报道停机情况,以追踪导致意外停机的原因。在过去三年中,该公司从传统媒体或社交媒体上报道的162起中断中筛选了部分信息。在此期间,可用数据量稳步攀升;研究人员收集了2016年27次停电,2017年57次停电以及2018年78次停电的数据。

  Uptime Institute的研究执行董事Andy Lawrence表示,“公共服务中断越来越频繁地成为新闻。”

  Lawrence表示,“几乎每天都在世界各地发生大规模停机,这并不一定意味着中断的数量在急剧增加,但停机时间正在获得更多的关注。”他说。

  来自Uptime Institute的研究的一个重要发现:电源在整体故障中的影响较小,而网络和IT系统则更为牵连。

  这种转变的一个原因是,电力系统的运行比过去更加可靠,这减少了本地数据中心内部的电力故障数量。

  在过去二十年中,科技行业一直专注于设计电力系统,使IT资产能够在电力系统出现故障或故障的情况下继续运行。Uptime Institute首席技术官Chris Brown表示,“供应双线IT设备的2N配电系统的出现,使得IT系统能够通过一系列单一事件继续运行。”

  与此同时,日益复杂的IT环境导致更多的IT和网络相关问题。“现在数据分布在多个地方,其中一些关键依赖与网络、应用程序(架构)的方式以及数据库复制的方式。这是一个非常复杂的系统,今天扰乱该系统的可能性比过去几年要少。”Uptime Institute负责IT优化和战略的副总裁Todd Traver说。

  评估数据中心中断的严重程度

  为了区分可能导致业务瘫痪的停机和仅仅造成不便的中断,Uptime Institute已经提出了规模。Lawrence说,评级系统允许研究人员了解模式如何随时间变化。Uptime Institute的规模有五个层次:

  ●1级是可以忽略不计的停机。中断是可记录的,但对服务的影响很小或没有明显影响,也没有服务中断。

  ●2级的特点是最小的服务中断。服务中断,但对用户、客户或声誉的影响微乎其微。

  ●3级是业务重要的服务中断。它涉及客户或用户服务中断,大多数是有限的范围、持续时间或影响。对经济的影响很小,甚至没有。会产生一些声誉或合规方面的影响。

  ●4级是严重的业务或服务中断。涉及服务或操作的中断。其中包括一些财务损失、违规行为,声誉损害和可能的安全问题,客户损失是可能的。

  ●5级是关键业务或任务停机,涉及服务或运营的重大破坏。可能存在巨大的财务损失、安全问题、合规性违规、客户损失和声誉受损。

  当Uptime Institute在三年期间检查所有公开报告的数据中心中断(级别1到5)时,IT系统和网络问题超出了电源作为主要原因(见图)。

  当比较逐年的原因时,这种趋势尤其明显。2017年,28%的停电事故的罪魁祸首是电力。在接下来的一年中,仅有11%的断电被列为主要原因。与IT系统相关的故障保持相当一致; 在2017年和2018年分别有32%和35%的故障是由它们引起的。网络中断的主要原因显著增加:2017年19%的网络中断归咎于网络,而2018年这一比例为32%。

  “这是事物之间的相互联系。这就是为什么网络中断的大幅增加会导致中断。”“这些东西不是通过一个或两个站点连接的,而是通过三个或四个或更多站点连接的。网络在“IT弹性”中扮演着越来越重要的角色。

  此外,随着更多IT资源被移交给服务提供商,并且不再受使用它们的企业直接控制,IT将增加管理和操作复杂性。

  深入研究数据中心停机时间

  Uptime Institute深入研究了数据中心中断的具体原因。在网络方面,中断的常见原因包括:

  ●光纤在数据中心外部切断,路由选择不足。

  ●主交换机间歇性故障,未部署辅助路由器。

  ●主交换机故障,没有备份。

  ●维护期间的流量配置不正确。

  ●路由器和软件定义的网络配置错误。

  ●对非备份单个组件(如交换机和路由器)断电。

  错误配置的路由器和软件定义的网络是“常见的网络问题。他们应该通过测试检测到。”Traver说。

  Traver说,当谈到光纤切割时,公司往往不知道他们有单点故障。他们可能有两个独立的供应商,但他们不知道,光纤在同一个沟渠中运行。他们没有做出适当的尽职调查来确定这一点。

  当IT是罪魁祸首时,列举的一些原因包括:

  ●管理不善的升级,缺乏软件级别的测试。

  ●大型磁盘驱动器或存储区域网络的故障和后续数据损坏。这可能是由硬件故障引起的,由于配置或编程错误而加剧。

  ●负载平衡或流量管理系统中的同步或编程错误失败。

  ●错误编程的故障/同步或灾难恢复系统。

  ●对没有备份的单个组件(例如服务器或大型磁盘驱动器)断电。

  谈到负载均衡/流量管理问题,Lawrence表示,当公司尝试更广泛地分发IT资源时,可能会出现编程错误和同步问题。“减少对单一网站的依赖通常是更广泛战略的一部分; 就像你挤压气球一样,问题突然出现在其他地方。”

  Traver补充说,当公司“没有真正规划所有平台的应用程序和数据,或者他们没有经常测试它们时,就会出现问题”。

  当电源成为主要问题时,一些主要的停电原因包括:

  ●雷击,导致断电。备份软件/配置失败。

  ●转换开关出现间歇性故障,导致无法启动发电机,或转移到第二个数据中心。

  ●UPS故障和无法转移到二级系统。

  ●操作错误,关闭或配置错误。

  ●公用电力损失以及发电机或UPS的后续故障。

  ●电涌引起的IT设备损坏。

  这些都是数据中心的工程师们几十年来一直在努力解决的问题——如何围绕这些问题进行设计,如何用他们的设计减轻压力。

  Traver说,总的来说,公司需要更加关注数据中心的弹性。“了解您的系统是如何设计的。完全理解 - 所有相互依赖。并且也知道它是如何失败的,并为失败做好计划。这是我认为缺少的那块。”他说。

  “设备越来越好,管理越来越好,经验越来越丰富。它正在成为一个更成熟的行业。”Lawrence总结道,“但即便如此,断电仍然是一个非常重要和昂贵的问题

      

责任编辑:admin
免责声明:以上内容转载互联网平台或企业单位自行提供,对内容的真实性、准确性和合法性不负责,Voipchina网对此不承担任何法律责任。

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部

上一篇2019年数据中心光纤的传输容量将..
下一篇5G到来 数据中心需作何变革

热门文章

图片主题

最新文章

相关文章

广告位

Copyright@2003-2009 网络通信中国(原VoIP中国) 版权所有
联系方式:503927495@qq.com
  京ICP备05067673号-1 京公网安1101111101259