专业的信息化与通信融合产品选型平台及垂直门户
注册 登陆 设为首页 加入收藏
首页 企业新闻 招标信息 行业应用 厂商专区 活动 商城 中标信息

资讯
中心

新闻中心 人物观点
厂商专区 市场分析
行业
应用
政府机构 能源产业 金融机构
教育科研 医疗卫生 交通运输
应用
分类
统一协作 呼叫客服 IP语音 视频会议 智能管理 数据库
数字监控 信息安全 IP储存 移动应用 云计算 物联网

TOP

华为超融合数据中心网络0丢包以太网,助力算力100%释放
2022-04-11 15:58:27 来源:网络通信中国 作者:【
关键词:华为 超融合数据中心
 
2022年4月7日,在MPLS SD & AI网络世界大会上,华为加拿大研究所数据中心网络首席研究员郑晓龙发表“0丢包以太网,助力算力100%释放”的主题演讲,解读华为超融合数据中心网络CloudFabric 3.0解决方案是如何创新性解决数据中心网络丢包难题,实现低时延、高吞吐、大规模的0丢包以太网,100%释放算力潜能。
  2022年4月7日,在MPLS SD & AI网络世界大会上,华为加拿大研究所数据中心网络首席研究员郑晓龙发表“0丢包以太网,助力算力100%释放”的主题演讲,解读华为超融合数据中心网络CloudFabric 3.0解决方案是如何创新性解决数据中心网络丢包难题,实现低时延、高吞吐、大规模的0丢包以太网,100%释放算力潜能。
  以数据为中心的算力时代高效提升算力是关键
  “算力缺失是以数据为中心的算力时代的最大挑战,要实现数据的实时处理和价值变现,就需要有强大的算力支撑。”郑晓龙表示。大数据已经无处不在,元宇宙、基于大数据的病毒传播跟踪、基于人工智能的药物研究、基于用户习惯的智能推荐广告等等,这些大数据的成功应用都需要强大的算力实现数据快速处理。然而人工智能计算模型的规模正在呈指数级增长,例如,业界最新发布的语言模型Megatron-Turing NLG已经实现支持5300亿参数,而在2017年业界最复杂的模型还仅支持6100万参数,五年内计算压力增加了10000倍。如何高效提升算力,100%释放算力的潜能,成为算力时代首先要解决的问题。
  数据中心网络成为集群算力提升的核心瓶颈
  完成一个AI模型(比如GPT3语言模型)训练所要求的百亿亿次浮点计算要求,需要众多计算服务器组成一个集群协同才能完成。然而所有的AI训练集群都存在性能天花板。当到达天花板时,即便再增加服务器节点,也不能使集群的性能再进一步提升,甚至有可能会下降。这是因为集群内部存在计算协同,当网络有丢包时,增大了因协同等待而产生的时间等开销,使算力持续下降。据实验统计,0.1%的丢包会引起算力损失50%。因此,要提升算力,首先要构建一个0丢包的数据中心网络。
  华为超融合数据中心网络0丢包以太网助力算力100%释放
  华为超融合数据中心网络CloudFabric 3.0解决方案基于独有iLossless智能无损算法,终结了以太网自诞生以来四十多年的丢包历史,以高吞吐、低时延、大规模的0丢包以太网,助力任意场景下多元算力的100%释放。
  01高吞吐:传统流量调度依赖手工僵化配置,无法适应网络动态变化。华为智能无损核心技术ACC(Automatic ECN)可精准预测网络拥塞状态,实现在任意拥塞链路0丢包的基础上接近100%吞吐。通过第三方权威测试机构Tolly表明,超融合数据中心网络可助力全闪存IOPS性能提升93%。2021年8月,智能无损技术论文《ACC: Automatic ECN Tuning for High-Speed Datacenter Networks》(高性能数据中心网络中的ECN动态调优)入选全球网络通信顶级会议ACM SIGCOMM 2021,得到业界专家的一致认可,具有世界级技术影响力。
  02低时延:在HPC高性能计算中,应用时延=计算操作的步数*每步时延,因此针对时延敏感型应用,减少计算操作的步数可以有效降低整体应用时延。华为智能无损网算一体技术基于在网计算(In-network computing)和拓扑感知(Topology-Aware Computing)实现网络和计算协同,一方面网络参与计算信息的汇聚和同步,减少计算信息同步的次数,另一方面尽量确保计算任务分布在同一个TOR下,减少通信跳数,进一步降低应用时延。以MPI_allreduce为例,相比传统网络仅做数据转发不参与计算过程,超融合数据中心网络可有效降低时延,提升计算效率27%。
  03大规模:数据中心传统三层CLOS组网架构最大仅支持65k节点,不能满足大型数据中心规模诉求。华为超融合数据中心网络基于新一代直连拓扑组网架构和创新分布式自适应路由协议,不仅满足算力网络0丢包的诉求,更支持270k节点大规模组网,组网规模4倍于业界,可助力构建E级和10E级大型和超大型算力枢纽。
  0丢包难题的突破和性能的持续演进对于以数据为中心的算力时代具有重大意义。通过和金融、制造、超算等客户的联合测试证明,华为超融合数据中心网络CloudFabric 3.0同时在全闪存、分布式存储、HPC高性能计算、人工智能计算等场景,都具有极强的性能优势。未来,华为将持续投入智能无损技术研究,持续提升无损网络能力,充分释放算力,使能企业智能化升级。
      

责任编辑:admin
免责声明:以上内容转载互联网平台或企业单位自行提供,对内容的真实性、准确性和合法性不负责,Voipchina网对此不承担任何法律责任。

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部

上一篇繁荣生态 软通动力获OpenHarmony..
下一篇创新引领发展:华为与盛视科技携..

热门文章

图片主题

最新文章

相关文章

广告位

Copyright@2003-2009 网络通信中国(原VoIP中国) 版权所有
联系方式:503927495@qq.com
  京ICP备05067673号-1 京公网安1101111101259