我们的工作和生活都在因为数据而改变,“数据驱动”成了大多数企业增强自己竞争力的法宝。一旦离开数据,很多商业行为就变得不可想象。数据激增并不是一个新鲜话题, IDC报告显示,在过去的8年和未来的8年,数据的增长将会前所未有,到2025年,数据总量会超过160 Zeta字节。但在以前,数据大多是“静止不动”或者’缓慢移动“的,而随着大数据、人工智能等技术的发展,数据可以被计算、分析、被更容易传输,数据的价值被无限放大、数据也焕发了新的生命力。
数据中心无疑是数据的一个重要“领地”,想利用好数据,数据中心的规模开始变大,计算规模和存储的规模也变得越来越大,然而,动则成千上万台服务器的大规模的数据中心,是否能充分的发挥出它的性能?这是困扰很多数据中心用户的问题所在。另一方面,在传统的数据中心中,CPU是用来做计算的最核心部分,数据被输送到CPU,之后由CPU来做计算。 当数据量越来越大、计算单元越来越多的时候,各项操作就会开始抢占资源,CPU、内存和网络就成为了计算性能的瓶颈。类似HPC、机器学习、深度学习、大数据和存储等类型的应用,需要将所有的数据由网络中的各个计算单元送到这个CPU,导致了网络拥塞、CPU需要花大量的时间来等待数据同步。那么,我们到底是不是必须要让CPU承担这么大压力?有没有其他的替代方案?
在HPC China大会期间,天极网采访了Mellanox公司全球市场副总裁Gilad Shainer和Mellanox亚太区高级市场总监宋庆春,通过近一个小时的深度交流,了解到这家专注于网络计算的以色列公司,如何用自己与众不同的产品和技术理念,为正在受到困扰的数据中心用户打开一扇窗。
谁说数据只能在CPU计算?
上文说到,CPU来作为计算核心的架构仍然是一个主流的思路,在目前的这种架构下,增加CPU的计算能力和数量,或是增加服务器的数量,不能解决计算效率低下的问题,还会使问题更加恶化,导致更严重的网络拥塞。
Mellanox提供了一种崭新的思路:“数据在哪,计算就在哪”。Gilad Shainer表示,既然数据是一切的起点,数据的增长导致了计算规模扩大、导致网络通信的拥塞、数据的增长导致了存储的容量和性能瓶颈…… “数据带来的问题不是只在CPU、网络、或是存储,而是在数据中心的任何地方。所以解决问题的关键就要从数据入手,现在我们的答案就是以数据为计算的中心,数据在那儿,计算就在那儿。”他说。
数据在服务器的时候,CPU是主要的计算单元;数据在网络中移动的时候,网络是主要的计算单元;数据在存储中的时候,存储是主要的计算单元……由此而诞生了各种新的计算技术,如网络计算(In-Network Computing)、存储计算等。
而从另一方面来看,数据计算和传输的速度影响数据中心的运营成本,数据移动到CPU,也是数据中心代价最高的部分,如果把计算放到数据中, 数据可以实时分析和计算,就得到最好的数据中心性能也能降低运营成本。
从HPC到AI
我们了解,Mellanox是一家端到端的网络设备提供商,在网络计算领域,这家公司的做法通过将各种通信相关的计算从CPU卸载到网络中来,这样会大大降低CPU和主机内存在通信中的消耗,也可以解决需要将大量的数据归约到某台服务器而导致的网络拥塞问题,提升数据中心的计算效率。
笔者在采访中了解,目前Mellanox能提供的网络计算功能主要包括RDMA技术、GPU Direct RDMA技术、SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)技术、NVMe Over Fabric Target Offload技术、SHIELD(Self-Healing Technology)技术、Socket Direct和Multi-Host等前沿技术。而除了以上网络计算功能以外,Mellanox也正在积极开发新的网络计算功能,比如安全计算功能、NVMe Emulation功能等,新的功能将会进一步提升数据中心的性能,给用户带来更大的益处。
在谈及Malledox在技术上的创新和投入方面,Gilad Shainer表示,“SHARP技术,在某些使HPC和机器学习应用中可以得到10倍以上的性能提升;采用RDMA和MPI加速技术,可以提升35倍以上的性能;采用SHIELD,可以加快5000倍网络故障的恢复时间;采用GPU Direct RDMA技术,可以在一些HPC和AI应用中得到10倍以上的性能提升。网络计算功能可以在HPC和AI应用中大幅提升数据中心用户的ROI和降低投资成本和运行成本,已经被大量的用户应用在他们的数据中心、计算中心和云计算中心中。
据笔者了解,Mellanox 200Gb/s和400Gb/s的产品将会在今年年底量产,更多的新技术将会用到新的产品中来,而用户可以得到更大的收益。
在HPC的应用上,TOP500榜单中的很多超算中心都应用了Mellanox的产品或加速技术,在AI领域的一些领先公司,例如科大讯飞、facebook、uber等,也和Mellanox达成了深度合作。
此外,Shainer还特别提到了Mellanox在中国市场的投入和成长,“Mellanox已经在中国设立了研发中心,将很多关键技术的开发工作放到了中国。在2018年,Mellanox端到端网络产品已经全线进入了中国政府采购网;Mellanox和华为云签订了战略合作协议; Mellanox成为了阿里云的策略合作伙伴共同打造阿里“可信云2.0”;Mellanox也和滕讯云紧密合作,成为腾讯云大带宽、低延迟、高性能网络的重要合作伙伴;同时Mellanox也在刚刚结束的ODCC 2018年会上,成功当选为ODCC专家委员会成员, 未来将积极参与中国数据中心的建设。“