随着国民经济的发展,信息化建设的步伐加快,原有数据中心提供的业务量已跟不上需求增长,供配电系统的可用性达不到现有标准,电气设备逐渐老化所带来的安全隐患突出,数据中心改造被提上议事日程。与新建机房不同,在线式数据中心改造受到各种条件的限制,工程须在保证机房重要负荷不停电的原则下进行,改造过程存在更大风险。
本文将深入分析在线式数据中心供配电系统改造的风险,从设计、施工、调试、运行等角度提出风险控制的策略,并通过工程实践验证其对改造工程的指导作用。
1、数据中心的可用性等级
改造后的数据中心需要满足多方面的要求,即拥有更快的数据处理能力、更大的储存空间、更多的浏览量,当然也需消耗更多电力,占用更大空间,系统的复杂性将成倍增加。所有改工作的首要目的是确保新机房的可用性达到相应标准。按照TIA/EIA-942数据中心标准,据中的可用性分为四个等级,如表1所示。
由表1可见,可用性等级越高,年允许故障时间越短。对于三级、四级负荷,一年中只要发生一次宕机事故,年内的可靠性就可能不达标,由断电导致的数据丢失、交易失败的损失将无法估算。
2、供配电系统改造风险
供配电系统作为数据中心的基础支撑平台,为机房负荷提供不问断电能,电能的品质直接影响数据中心负荷的运行安全。数据中心的供配电系统通常由市电装置、柴油发电机组、切换置、UPS装置及配出柜等组成。系统的架构如图1所示。
供配电系统改造是根据现场情况,结合所要满足的指标,对供配电系统进行新增、扩容及调整。对于在线式数据中心,其内部重要负荷在改造过程中仍需保持带电运行,因此,改造工程面临更大的风险。
2.1设计风险及控制策略
(1)勘察。设计工作在原有机房的基础上进行,旧机房使用多年或经过多次改造,原有电气资料早已缺失,并与现场情况不符。因此,必须做好现场勘查,掌握准确资料。如因勘察不足导致设计失误,在施工时发现将为时已晚,由此造成工程进度推迟甚至已采购材料报废,带来巨大损失。改造工程往往在原有大楼内进行,早期的机房大楼常设置在繁华商务区,可利用的空间较小。供配电设备体积庞大,设计布置必须充分利用空间,将原有系统与新增部分有机地整合,同时不影响在线机房设备的运行。
(2)电能质量。机房负荷对于电能质量的要求很高,改造工程的设计需要严格控制电能质量,如零地电压、谐波治理、防雷保护等涉及IT安全运行的问题等。若这些问题处理不当,将严重干扰计算机负荷的运行。
(3)设备复杂性。电力设备越来越复杂,设计师往往不能全面了解设备的情况。如UPS系统品牌型号多,导致了设计方案的多样性,设计师需要在众多的方案中选择,而每个方案都可能由性能和指标各异的元器件组成,选择过程往往存在巨大的风险。对于系统的多样性,应设计一个标准化的方案,根据指标规范,选择构造满足要求的系统。这样可以降低工作量,同时设计方案标准化、规范化也降低了组建的风险。
(4)功率密度。随着科学技术的发展,用电设备的功率密度迅猛增加。如5年前l台典型的IT机柜内可以放5~8台服务器,功率密度大约为每个机柜1.0~1.5kW;而如今刀片式服务器广泛运用,极端情况下每个机柜内负载量甚至能够达到10~15kW,且数值还在增长。虽然客户对于未来功率的急剧增加都持肯定态度,但究竟增加多少无法估计。新增容量不足将导致数据中心下一次改造的提前,而新增容量太大会增加投资且受场地限制。新增容量的确定应在各个因素间寻求平衡。
(5)断路器设置。大型数据中心设计中常采用集中式UPS系统,设计师在供配电系统和关键负载问设置了许多断路器。实际上每个断路器都是一个潜在的故障点,都可能影响数据中心的安全。断路器设置数量越多,关键负荷越不可靠。参数相同的断路器,其实际的动作电流值可能相差悬殊,不同厂家的产品之间配合的风险尤其突出,在极端情况下来自不同厂家的产品安装在同一条的供电路径作保护配合,下游的故障没有使最近一级的断路器保护动作却启动了上一级的断路器跳闸,从而导致停电范围扩大。因此,设计师应尽可能减少UPS与负载之间的断路器数目,并采用更加标准化的产品。
2.2施工风险及控制策略
在线数据中心的改造要求“边施工边运行”,即在工程施工中保持被改造机房的局部区域温湿度、清洁度、供电、网络通信条件,提供IT设备工作环境,保持业务系统设备不间断运行。
(1)协作配合。需改造的供配电设备往往位于大楼的底部楼层,施工条件受大楼整体条件的限制,工程需要多家单位协同工作,同时供配万方数据电系统的改造也涉及到许多专业,需要建筑、结构、暖通、给排水等专业配合。各单位、各专业之间,设计师与施工人员、监理、顾问之间互相影响,跨专业、跨领域的问题多,涉及的技术规范和标准多,需要处理的细节多,沟通协调难度大,极易出现遗漏或配合不当而导致风险。因此,需要参与工程的各方高度莺视、密切配合,现场严格组织管理,施工精益求精。
(2)在线保护。改造工程往往与现有机房位于同一幢楼内,工程施工不当将会对原有系统构成隐患。如电源侧设备的改造处理不当会影响现有的运行设备,甚至引起本楼机房或相邻其他机房的断电。在线施工期间,原有供电装置、UPS继续保持使用,而新安装的供电装置、UPS及供施工的临时供电、供水等水电管路极易与已有管路矛盾,如强行盲目施工极易破坏原有的管路,导致原有系统不能正常运行,甚至设备宕机。
因此,改造工程应先掌握现场情况,包括原有涉水、涉电区域及路径走向,在现场设置相应的保护区,严格区分现有管路和改造管路,对于为关键负荷供电的设备区域应设为禁区加强保护。
(3)施工质量。机房负荷对电能质量非常敏感,施工质量关系到今后设备能否正常运行。如接地系统的施工缺陷将带来零地电压偏高、高频谐波分量偏高、电气可靠性差的风险。因此,控制施工质量、加强管理和监督是必不可少的措施。
(4)时间控制。数据中心内的大型供配电设备部件均有较长的交货周期,客户需要提前采购这些设备,如果中间环节稍有耽搁,将会影响整个工程进度。同时,市场瞬息万变,如果施工时间太长,当新设备全部投入使用时设计方案可能已经过时。