不管是AI Enterprise还是DPU,NVIDIA在软件和硬件层面不断创新实现AI民主化,而这离不开生态圈的构建。此次VMworld 2021上NVIDIA和VMware的联合成果发布,将会加速人工智能在现代数据中心中的落地,推动企业的业务转型。
如今,AI和云原生类应用已经成为企业IT基础设施的重要工作负载,不过这也给在企业数据中心和混合云中支持这些先进应用的IT团队带来了挑战,于是数据中心现代化便成为企业的重要议题。
在近日举行的VMworld 2021上,NVIDIA和VMware公布了诸多联合创新举措,帮助企业将现有IT基础设施进行现代化,更好地承载人工智能和云原生等应用。
云原生环境中的AI
在VMworld 2021上,VMware发布了最新版本的VMware Tanzu for vSphere,其使IT团队能够在其现有的IT基础设施上运行容器化Kubernetes工作负载。
结合NVIDIA AI Enterprise和VMware vSphere with Tanzu,企业能够在VMware环境中的Kubernetes容器上运行AI工作负载,充分利用方便IT部门管理的基础设施。该软件可在服务器厂商商所提供的主流NVIDIA认证系统上运行,从而提供了一个完整的、专为AI优化的集成式软件堆栈和硬件堆栈。
我们知道NVIDIA AI Enterprise于2021年8月上市,是一套经NVIDIA优化、认证和支持的端到端的云原生AI和数据分析软件套件,包括PyTorch、TensorFlow、NVIDIA TensorRT、NVIDIA Triton推理服务器和NVIDIA RAPIDS。这些工具使AI开发者和数据科学家能够轻松获得构建对话式AI、计算机视觉和推荐系统等一系列企业AI应用所需的工具和框架。
作为NVIDIA和VMware联合开发AI-ready企业平台,NVIDIA AI Enterprise将全球领先的AI堆栈和经过优化的软件带入企业现有使用的IT基础设施中,帮助企业缩短AI开发周期,快速部署、管理和扩展AI工作负载,更快上线应用。
更为重要的是NVIDIA AI Enterprise的云原生架构提供接近裸机水平的AI性能,包括在虚拟化环境中。在最新的MLPerf基准测试中,戴尔科技EMC PowerEdge R7525服务器用三个NVIDIA A100 Tensor Core GPU运行NVIDIA AI Enterprise和VMware vSphere,取得了94.4%至100%的等效裸机性能。
目前,NVIDIA AI Enterprise通过全球NVIDIA渠道合作伙伴提供,并得到了包括源讯、戴尔科技、技嘉、新华三、慧与、浪潮、联想和超微等多家提供NVIDIA认证系统的服务器制造商的支持。
为支持需要即时访问AI基础设施的客户,NVIDIA AI Enterprise预计也将在不久后加入数字基础设施领导者Equinix提供的NVIDIA AI LaunchPad计划。
DPU加速数据中心现代化
除了NVIDIA AI Enterprise,NVIDIA扩大与联想的合作,提供对VMware Monterey项目的抢先体验计划支持。通过抢先体验计划,企业可及早探索应用支持VMware的预配置集群,通过联想ThinkAgile VX和ThinkSystem Ready-Nodes等配备了BlueField的服务器实现加速。
目前,企业正在对现有应用进行现代化升级,并部署新应用,传统IT架构不断扩展,新的挑战随之而来,比如服务器CPU上消耗的周期数量越来越多,进而影响性能。
为了解决这些问题,企业采用带有GPU、DPU等硬件加速器的专用系统,并通过减轻负载来满足新应用的性能和安全需求。不过加速器可以提高性能,但也会导致团队孤立、技能专业化、总体拥有成本增加,并且带来了更大的复杂性和安全需求。
VMware Monterey项目旨在通过包括NVIDIA BlueField DPU在内的最新网络技术,提高企业数据中心的性能、可管理性和安全性。
现代超大规模云技术推动数据中心利用一种专门针对数据中心基础架构软件而设计的新型处理器,来卸载和加速由虚拟化、网络、存储、安全和其它云原生AI服务产生的巨大计算负荷。于是NVIDIA于2020年率先提出DPU(数据处理器)的概念,并推出了BlueField系列DPU产品。
最新的NVIDIA BlueField-3 DPU是首款为AI和加速计算而设计的DPU,针对多租户、云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务,通过对数据中心应用的卸载、加速和隔离,实现各种规模的应用交付,打造安全、高性能的现代企业数据中心。
通过BlueField-3 DPU的加速引擎,有些场景下的性能可相当于多达300个通用CPU核的性能,从而释放宝贵的CPU资源来运行关键业务应用。
BlueField-3 DPU可以从业务应用中将数据中心的基础设施服务卸载和隔离出来,实现了由传统基础设施到现代基于 “零信任” 环境的转型,可对数据中心的每个用户进行身份认证,保障了企业从云到核心数据中心,再到边缘的安全性,同时在效率和性能上有了更大的提升。
作为业内首款400G以太网和NDR InfiniBand DPU,BlueField-3具有出色的网络性能。相比上一代产品,它具有5倍加速计算能力、4倍的加密速度,并且将CPU核升级到16个Arm A78 CPU核。BlueField-3也是首款支持第五代PCIe总线并提供数据中心时间同步加速的DPU。
结语
不管是AI Enterprise还是DPU,NVIDIA在软件和硬件层面不断创新实现AI民主化,而这离不开生态圈的构建。此次VMworld 2021上NVIDIA和VMware的联合成果发布,将会加速人工智能在现代数据中心中的落地,推动企业的业务转型。