电力有效性与管理的观点讲起来简单,但是当真正要交付有意义的正确数据时,就没有那么容易引人注意。在收集的数据不精确的情况下,就算之前你确实是从公司正确的节点收集的,对于世界上任何有效的能源测量和管理工具,还是不具任何价值。你很可能高估或低估你的能源有效性,导致损失金钱,又丧失优化数据中心的机会。
6connect是一家坐落于美国加利福尼亚洲Palo Alto城市的互联网架构管理的公司。在这篇采访中,高级技术编辑Steve Bigelow,与6connect的CIO和联合创办人Pete Sclafani坐在一起,讨论如何测量数据中心的电力能源。
Steve Bigelow:目前什么技术测量传送到数据中心和设备电力能源最好?
Pete Sclafani:这个取决于能源审计的频率要求。比如有些公司,一个月做一次审计已经能够满足他们的要求。但是其他情况下,你有可能要用电力数据作为账单的根据。所以,一个月记录一次数据中心的电力消耗无法达到你所要求的精确度。因为你希望取得某一个时间段中的电力传输值。
你可以利用电路的面板进行人工测量。如果有一个校准的钳形表就会比较简单。你需要一个合格的电工,因为必须要有一个打开用电表面板来做测量的人。你希望这些工作能够在非常安全环境下,按照所有安全预防措施来执行。鉴于此面板的位置,有可能形成风险点。如果这个面板非常靠近客户的机架设备,你还需要安排一次关机维护计划来确认不会有任何的触电风险,并避免工作人员碰了不该碰的东西。另外一种无需人工的方式是采用电流互感器(CTs),你将会把电流互感器连接到每一条电路上。这些电流会回到一个网关,这些网关开始收集数据并存入数据库。这个当然也会需要电流互感器的校准工作。基于电流互感器的品牌,校准频率可能是6个月,也有可能是1年。但是无论怎样,你都必须在隔了一段时间之后来校准这些设备。
我们发现理想化的技术就是利用两种方法的综合体。这样,你就能基于平常的标准来用一些方法来校准数据,而且你也能够获取历史数据,甚至是利用遍布于数据中心电流互感器的实时能源消耗信息。如果你每次都使用人工的方法来测量能源,将会很难获取实时的能源消耗数据。
最终的结果是,当开始一个审计的时候,你希望能够使用一天或一周之内相同的时间段。网络流量的波动会直接影响能源消耗的波动。基于你设备的效率,可以看到在非峰值测量中不同的能源消耗的指标。我们这边有一个案例,一个客户做了很多声音和图像的数据浏览网站。他们白天都保持在一个稳定的能源使用量,但是当人们回到家浏览这个网站的时候,他们就会看到在网络流量和数据中心能源使用上都会达到一个高峰值。所以再一次声明,你测量的数据节点越多,获取的数据越真实。
当你使用钳形表时,确保你的电池是可以长时间使用的,确保你的设备是可用的,而且可校准,这会一直帮到你。电池往往很容易被忽略,因为我们会假设他们永远都能正常工作。
Bigelow:依赖于电力分配单元(PDU)作为衡量效率的一个标准是可行的吗?有没有这样一个标准,说PDU的数据是如何和从哪里收集的?
Sclafani:我们已经在很多环境中看到了电力能源的测量,特别是在数据中心中。我们发现这样一个问题,如果依赖于终结点,你会发现在同一条电路上会得到不同的测量数值。所以,当你从机柜级别所得到的能源使用数值将会与你从断路器盒中获得的存在差异,还会和你从楼层的PDU上获得的数值也不一样。
有一件事情大部分电工都会做记录,那就是能源损失。当你从高压电进行转换也就是能源变换形式的过程中,转换电压或是电流经过一个联接点或是断流器的时候——安培或是电源,总会在一些方面有一定的损失。对于从数据中心楼层的PDU或是断流器上测量到的数据来做比较是非常简单的。接下来,与机柜级别的PDU相比,这个数字就会变化。这对你来说这是非常有帮助的,因为这样你就能正确的找出你的设备以及架构的用电效率了。
你做任何一种形式的审计,整合这些有效数的要诀都在于校准和持续性。你希望去确保:当你正在对比从不同电源节点获取的数据,是具有持续性的。举一个例子来说明,如果你正试图从机柜等级的设备获取效率值,从对比机柜级别的PDU开始,接着看电路和断流器。这样会让你知道两个测量数值之间的区别和不同机柜中的区别。那样希望能够给你一些更有用的数据。只要你坚持测量并坚持从同一位置进行测量,那这些测量数据对于提高效率是绝对值得的。我认为你得到的不会是错误的数据组。
Bigelow:当数据中心电力能源要求超过预设限制的时候,会不会产生告警?另外还会不会有其他相关的告警或警报需要让IT管理员来考虑呢?
Sclafani:这是个非常棒的问题。我认为可以分为两方面来解释。第一方面是仅收集数据。那这些信息是如何获取的呢?我们已经看到有在单据中存放任何信息再集成到企业资源计划账单系统中这样的方式。这个真的是依靠于你是如何把这个数据存入仓库的 – 无论他们是什么数据。有可能是一个数据仓库,有可能仅仅是你每月更新一次的文本文件。
现在你已经收集了数据,并希望确认有能力来设置这些系统并创建警报和告警通知。大部分你为数据中心购买的PDU,无非是机柜级别或是楼层级别这两种,这两种都有一些内置的功能可以允许你做简单网络管理协议(SNMP)来报告或是相互作用。你也可以结合Nagios或Cacti,或是其他个性化的软件系统,然后和你正使用的告警或监控系统连接起来。
在一条电路预设限制上,国家电力制造协会标准已经预设了电路使用率为80%。比如,如果你一条电路能够负载30安培的电,你明显不希望他使用超过24安培。如果你真的使用到那个百分比,那就有可能超过电路的温度导致设备损害的风险,你需要非常小心。我们推荐的另外一种方式是设定告警来进行一些峰值的通知。比如,一条电路可能有服务器依附于上,他也有可能在一天中会不断超过80%的预设限制。你真的希望每次都收到一个告警吗?是不是会有这样一条规则说一个告警持续多久后再进行通知?那是一个挑战,IT和运维工程们需要来讨论一下。他们可能认为电路上负载过量也就只能这样,所以只有增加另一条电路和平衡负载才有可能是最终解决办法。
Bigelow:企业当测量和计算PUE时会犯什么其他的错误吗,或是做其他种类的效率提升吗?
Sclafani:有两个重大错误。一个是数据确认,另一个是选择性健忘。确认数据是关键,因为当你同意在一个确切的点来做测量时,用那些不管是上流或下流的能源消耗数据做一些清晰检查是有帮助的,以便确定之前的数据是否合理。典型意义上,你需要在断流器上做一次电力审计。那是一个相对可依赖的信息组,特别是当你使用人工去做的时候。你可以把它与电流互感器上的数据或是机柜等级的进行对比,来看这些数字是否有意义。如果有一些偏离,那就有可能是接线问题或是忘了一些电路的存在。
另一种错误是选择性健忘。当你在计算电力能源使用效率(PUE)的时候,你正在查看的是IT负载和用来冷却这些架构的运维负载。这有不同的解释和说明。一些人认为数据中心中灯光所使用的电力能源或者冷却办公环境所使用的电力能源不能算做计算PUE中的因素。所以,计算PUE的一些小诡计在于你在测量什么,你是如何测量的和哪些因素应该计算在PUE中。
我们参与过一次审计,数据中心租户给了我们一个定义电路和针对审计的列表。这个列表是由数据中心运维者提供的,而且这是针对账单的,所以看上去应该是准确无误的。我们做了两个阶段的审计,一个是在断路器级别与机柜级别。令我们有些意外的是,有几条在使用中的电路并没有被计费,然而其他一些已经不存在的电路仍然被算作收费电路。不用说,数据中心租户和运维者已经不会去关心这些细节了。这就是一个第三方可以从中来帮助扮演这个调解人。当然,能够追踪到历史数据是一个很大的帮助。但是,当作为另一个IT项目而需要召集基础设施的人,与IT人在同一个房间一起讨论并同意批准相关实施的预算,有时候,那是一个很大的挑战。