6月21日,这段时间如果你途经深圳或北京机场,可能会被华为的巨幅平面广告所吸引。不是手机,也不是云,华为这一次秀的,是隶属于企业BG的数据中心系列产品。率先登场的,是华为数据中心交换机CloudEngine系列——号称业界首个面向AI时代的数据中心交换机。
从广告主视觉到文案,满眼都是AI的身影——华为昇腾AI芯片、iLossless算法,以及重复出现四次的AI字眼——似乎要非常明确地表明身份,“不同于传统数据中心交换机,我是AI加持的划时代产品。”有多不同,小字部分给出了直观的“跑分”答案:在三大场景性能上比友商均提升了30%左右。
见惯了手机“跑分”的人可能对此有些麻木,但IT业内人士当能看到关键场景性能提升30%的价值和意义。仔细看你会发现这个数据出自国际权威评测机构Tolly Group,公信力不在话下;而密切关注IT行业动向的业内人可能已经知道,广告中未点名的被Tolly对比测评的业界产品,正是思科顶级的Nexus交换机。
如此一来问题就变得有趣了:在AI方兴未艾的当下,华为真的有“九阳神功”护体学什么武功都很快,而且都很能打吗?众所周知,华为已经用AI手机在消费市场创下新高度,难道仅仅引入AI,就能让华为在企业数据中心领域走完别人行走多年的路,实现弯道超车吗?
带着这些问题,笔者日前代表极客网与国内一众IT网络资深媒体人走进华为企业业务展厅实地参观体验,并与华为企业BG全球Marketing总裁邱恒做了深度的交流,特将所见所闻所感与大家分享。
AI贯穿一切,打造端到端智能数据中心
华为身上的标签很多,其中之一是“端到端”,指的是华为能够提供端到端全面而完善的产品及解决方案。数据中心也不例外,除了开篇提到的机场广告中的主角数据中心网络外,位于深圳坂田的华为企业业务展厅还展出了包括计算、存储、传输、电源、散热在内的数据中心产品及方案。
一个显著的特征是:AI不仅被华为应用到其中的计算或网络等单一环节,而是贯穿整个数据中心的每一环。也就是说,基于全面的技术和产品能力,华为打造的是端到端的智能数据中心。这或许可以解释为什么华为敢于喊出智能数据中心的口号,并切实做出让传统数据中心黯然失色的划时代产品。
比如在数据中心交换机环节,邱恒介绍到,华为CloudEngine系列最新产品CloudEngine 16800通过华为自研的昇腾310高性能AI芯片和独创的iLossless智能无损交换算法,可实现流量模型自适应自优化,大幅降低故障识别和故障定位所需的时间,在零丢包基础上获得更低时延和更高吞吐的网络性能,克服传统以太网丢包导致的算力损失,将AI训练效率提升40%,数据存储IOPS性能提升30%。
又如在存储环节,华为的OceanStor Dorado V3全闪存存储系统采用智能芯片、NVMe架构和FlashLink智能算法,可提供0.3ms的稳定时延,实现端到端加速,业务性能提升3倍。
再如在电源、散热及管理环节,华为的FusionModule2000智能模块化数据中心实现了业界唯一的智能化管理,提出了基于iCooling、iPower、iManager的i3解决方案,能在典型场景(100kW数据中心,负载率50%)中每年省出13万度电。
端到端的智能带来的好处是十分显著的,邱恒在分享中列举了一个银行客户做数据中心故障排查演练的案例,以前用传统的方法要76分钟才能找到故障,现在8分钟就能把故障定位。这意味着,有了智能算法、智能芯片的帮助之后,数据中心的智能水平有了飞跃性的进步;从76分钟到8分钟,这是一个数量级的提升!
综上可见,不囿于一招鲜单点发力,AI已经被华为融入到数据中心的每一个环节,并且在关键场景性能提升和运维管理的降本增效层面均取得显著突破。可预见,机场秀肌肉的CloudEngine系列交换机还只是个开始,接下来华为还将展示智能数据中心更多维度的跃升。
核心能力全上阵,不断突破产品极致性能
除了无处不在的AI外,华为数据中心全线产品展现出来的另一个姿态是“死磕”性能——核心能力全部上阵,不断突破各类产品的行业极限,积极应对AI时代正在爆发或即将爆发的分布式存储、高性能计算(HPC)和AI应用等场景对数据中心资源需求的爆发式增长。
华为用于数据中心的核心能力首先表现在芯片层面。近期“备胎”转正的新闻一直伴随着华为,特别是在芯片层面。此番参观遍历华为数据中心产品,才发现原来华为自研芯片已经广泛应用于数据中心网络、计算、存储的每一个核心环节。
比如在CloudEngine系列数据中心网络产品中,除了上面提到的昇腾310高性能AI芯片,核心的网络芯片(NP)也是华为自研的Solar系列。又如在华为TaiShan服务器中,不仅搭载了华为自研的CPU芯片鲲鹏920,还配置了智能网络融合芯片、智能管理芯片、智能SSD控制芯片等自研芯片。再如在华为OceanStor系列存储中,也有华为自研的SSD控制芯片、BMC管理芯片、智能多协议接口芯片等。此外在异地灾备数据中心互联方案中,同样用到了昇腾310,以及华为最传统的强项oDSP光传输芯片。
有自研高性能芯片的加持,产品性能的提升立竿见影。邱恒以计算环节为例,指出华为数据中心在采用了新型的处理芯片之后,跟传统的数据中心相比AI训练的算力提升了2倍;跟业界顶级水平的公司相比,也能提升2倍的算力水平。如今,集鲲鹏920、昇腾310等众多芯片于一身的华为的TaiShan服务器,正在将高效能计算带入每一个数据中心。
除自主可控、创新灵活的芯片外,华为用于数据中心的核心能力还表现在ICT技术融会贯通后强大的产品设计能力,其中涉及到架构、材料等方方面面。以网络产品CloudEngine 16800为例,其全面升级了硬件交换平台,在正交架构、无背板基础上突破超高速信号传输、高效供电、超强散热等多项技术难题,使得单槽位可提供业界最高密度48端口400GE线卡(单机提供业界最大的768端口400GE交换容量),交换能力高达业界平均水平的5倍(一台顶5台),很好满足了AI时代流量倍增的需求。
其中,信号传输采用新型亚微米无损材料,使得电信号的传输效率提高了30%,确保了高性能板卡的实现;供电采用磁吹灭弧和大励磁技术实现单个电源模块独立双路输入的ms级快速切换,大幅节省机房空间,使单位空间的供电效率提升95%;散热采用新型碳纳米导热垫和VC相变散热器,使得散热效率较业界平均提升4倍,整机可靠性提升20%。
总之,无论是微观的芯片设计,还是宏观的产品设计,华为都倾其ICT核心能力发挥到极致,为数据中心全线产品带来了极致性能。如此一来,当产品本身强大的基础性能遇上AI效率倍增的能力,就会进一步爆发出巨大的能量了。
以客户需求为中心,多维度实现超低TCO
当然,强劲的AI能力,极致的产品性能,都不一定是企业客户选择升级数据中心的必然理由。很多时候,TCO因素在企业的IT投资考量中会占据更大的比重,特别是在当前的经济大环境下。但是,科学技术是第一生产力,在面向AI时代的转型中,企业如果不能抓住以数据高效处理、AI助力决策为特色的智能经济浪潮,则极有可能会被时代抛弃。
如何平衡?通常情况下,新技术的加入和产品性能的升级通常都意味着客户拥有成本的增加,但华为智能数据中心展示了强大的TCO控制能力,多维度发力为客户实现了超低TCO。同邱恒的交流中我们发现,为获取超低TCO,华为数据中心解决方案考虑的不仅是单个设备怎么样,而且要思谋如何端到端实现整体最低成本。
邱恒指出,在拥有智能化能力和保障高性能的前提下,数据中心运营者其实第一就是想省电,第二是想省空间,第三是想省运维。对此华为智能数据中心拿出了专门的供电智能、散热智能和管理智能解决方案,通过AI算法自适应和架构设计优化(比如上面提到的FusionModule2000智能模块化数据中心方案),达成超低TCO。
具体的数据表现上,从单一环节产品看,华为智能数据中心各产品都实现超低TCO。比如,整机满配的CloudEngine 16800一年能省出32万度电,同时机柜只占传统方案1/5的空间。OceanStor Dorado V3能达到75%的OPEX节省和5:1的数据缩减率,同时无损性能。而如果采用集电源、散热及管理于一体的FusionModule2000智能模块化数据中心方案,则能在100kW数据中心、负载率50%的典型场景中一年省下13万度电!
总之,单品+系统级的极致节省,是华为智能数据中心能够获得超低TCO的法宝。当然必须意识到,以AI为首的智能技术的引入,不仅仅能提升数据中心各环节的业务效率,本身也是降低端到端TCO的关键,十分值得注意。
综上,笔者此行参观体验的最大的感受是,华为数据中心的每个产品都在努力做到智能、极致性能和超低TCO,同时产品与产品之间还有协同,以达成端到端的智能、极致性能和超低TCO。如此很明显,华为数据中心的智能化水平,不是每一个单点设备提升的汇总相加,还有各部分之间的乘法效应。这大概就是华为智能数据中心能够一骑绝尘的原因吧!