在数智化转型浪潮中,中兴通讯致力于为运营商和行业客户提供端到端的智算解决方案和工程能力。基于算力网络框架的层次化智算基础设施方案,支持中心训练池、省份推理池和边缘训推一体机全场景部署,为算力网络智能跃升提供了强有力的支持。
中心训练池:全栈智算基础设施方案,性能优先
中心训练池是针对大模型训练任务而设计,采用并行计算技术,降低训练成本,为人工智能的发展和应用提供重要支持。中兴通讯以性能优先为目标,为运营商和行业用户构建中心训练池提供全栈的智算方案和工程能力。针对大模型训练中心的需求,中兴通讯提出"大算力"、"大网络"、"大节能"和"大生态"建设方案。
在大算力方面,中兴通讯引入了旗舰级GPU服务器R6900 G5。该服务器可支持 H800 NVLINK GPU模组或 OCP OAM GPU模组,提供卓越的AI算力。服务器支持节点间IB/RoCE组网,无阻塞带宽高达4.8Tbps,实现数据中心内部高速、低延迟的数据传输。
在构建大规模网络方面,中兴通讯提供全套无损网络解决方案。其中,创新框式单层多轨方案可实现万卡级的最优组网效果。通过端网协同构建高带宽、低延迟无损网络,实现算力无损,可以更好地支持大模型训练任务的并行执行。此外,中兴通讯自研的DPU智能网卡提供大带宽支持,进一步增强网络性能。
为追求节能效果,中兴通讯的AI服务器采用GPU+CPU双液冷技术,通过液体冷却系统,可带走60%-80%的设备热量,,大幅降低风扇转速,降低功耗高达1000W。此外,数据中心中引入了风液融合制冷技术,将能源使用效率(PUE)降低至1.13,实现了节能环保的目标。
在大生态方面,中兴通讯携手和合作伙伴共建开放生态圈,通过推进软硬解耦,屏蔽硬件差异,实现算力原生;推动数据定义和模型定义的标准化,实现训推解耦和模型解耦,促进数据的可交互性和AI各环节的协同性。中兴通讯可为大模型训练池提供多厂家、全解耦智算基础设施,兼顾性能领先和自主创新,提高了供应链的安全性。
省份推理池:融合通算与智算,成本优先
省份推理池是为了满足低时延推理任务而设计,它以省份通用数据中心为基础,将模型的推理任务分布在各个省份推理池中执行,能够更快地响应终端设备的请求。目前,省份数据中心建设面临"算力偏科"的挑战。为提升整体性能,需要将传统通用数据中心向通算与智算的融合演进,从通用CPU向CPU、GPU、DPU、FPGA等多种架构进行演进。算力融合的关键在于支持不同计算单元和多种架构并存,并确保软硬件的兼容性。
中兴通讯全系列服务器适配多厂家加速芯片,可更好地支持省级数据中心向通算、智算融合演进。这种融合将为用户提供全精度的多元算力,能够应用于更广泛的场景。通过异构算力协同加速,可以大幅提升算效。中兴通讯云平台兼容主流软硬件,统一管理通算、智算异构资源池,实现GPU统一虚拟池化。
通过中兴通讯的技术支持和产品解决方案,省份推理池能够更好的实现算力的融合,将通算与智算相结合。这将帮助省级数据中心提高算力利用效率,降低成本,并实现更加安全可靠的算力资源管理。
边缘训推一体机:智算用一体化,服务优先
大模型的发展趋势是垂直化,通用大模型将结合领域专家知识和企业私域数据,为各个垂直行业和企业提供数字化赋能。然而,许多行业和企业在大模型训练和精调方面缺乏能力,大模型产业化面临算力成本、技术门槛、应用场景和数据安全等挑战。
为了解决这些问题,中兴通讯推出了一站式、开箱即用的训推一体机,满足边缘节点本地化部署需求。该一体机集成了计算、存储、网络设备和AI平台软件,支持主流AI框架,帮助用户降低私域模型的训练和推理成本,降低技术门槛。
中兴通讯的训推一体机具有小时级快速交付、资源按需分配和易于使用的特点。用户无需复杂的部署和配置过程,可以快速投入使用,节省时间和资源。同时,用户可以根据需求进行训推资源的分配,实现最佳的性能和成本平衡。该一体机内置多种模型和应用,支持私域数据的本地精调,确保数据安全性。
从全连接公司向算力公司转型,推动数字化转型
中兴通讯的端到端智算基础设施方案提供了全面的智算能力和支持,覆盖了从大规模模型训练到实时推理决策的全过程。在运营商、工业、交通、金融等领域,中兴通讯的智算基础设施方案都可以提供定制化的支持,助力客户实现智能化转型和业务创新。中兴通讯将继续投入研发和创新,与合作伙伴共同推动人工智能和大模型技术的应用,提供更多创新的解决方案,推动数字化转型迈向新的高度。