11月10日消息:今日,以“数字科技,焕新启航”为主题的“中国电信2023数字科技生态大会暨2023数字科技生态展”在广州盛大启幕。
在上午的主论坛环节,天翼云科技有限公司总经理胡志强正式对外发布了天翼云构建的全栈大模型智算服务。
胡志强表示,2023年是大模型高速发展的一年,大模型不断扩大的参数规模和快速迭代的技术路线跨越式地提升了模型的能力,但是同时也为大模型的训练和应用带来了很多挑战。比如算力利用率的瓶颈日益凸显、算力成本压力进一步增大、模型的构建难度不断提升,模型的行业落地更加复杂。
为顺应大模型时代对于云服务商的新要求,天翼云全面升级,构建了全栈大模型智算服务,包括打造智算数据中心AIDC、升级云智超一体化基础设施平台“云骁”、推出一站式智算服务平台“慧聚”,构建国云大模型生态,形成云智一体的智算服务体系。
升级云智超基础设施平台“云骁”
整个体系的基石是智算基础设施。胡志强表示,针对AI高强度运算带来的散热问题,天翼云推出液冷DC舱,融合定制化液冷智算服务器,实现低至1.12的PUE。
与此同时,天翼云将云骁升级成为云智超一体化基础设施服务平台,构建高性能RoCE网络、并行文件存储等服务;重点提升训练加速、网络加速等核心能力,同时升级了运维体系,实现对基础设施的全面故障预测和感知。国产化方面,云骁平台率先在公有云加载天翼云RoCE网络+国产GPU方案并实现商用。
打造一站式智算服务平台“慧聚”
为加速大模型在行业的应用落地,天翼云正式发布一站式智算服务平台“慧聚”。据了解,慧聚平台将大模型开发训练过程中的关键流程、复杂技术和宝贵实践经验进行总结和抽取,构建出一站式全链路的大模型生产应用的流水线。大幅降低大模型训练、微调、部署、推理的门槛,让客户能够更专注于模型升级和应用落地。
技术层面,慧聚平台成功突破了算子加速、模型并行、断点续训等技术难点,将高性能计算能力、分布式算力调度能力、训练和推理多环节加速技术、高性能数据存储技术进行封装;实现了万卡集群调度,稳定性、训练推理速度等核心指标大幅提升。
功能层面,慧聚平台基于数据平台、模型训练平台、模型服务平台和应用服务平台四大平台,提供数据准备、模型开发、任务管理、模型优化等七大主要产品功能模块,每个功能模块又包含多级组件。功能与组件之间可以灵活组装,帮助用户打造针对不同场景的专属工具集。
共建繁荣的国云大模型创新生态
基于全新的基础设施服务平台云骁和智算服务平台慧聚,天翼云已经为大模型开发者、大模型提供者、应用厂商、政府与科研机构、行业协会等合作伙伴提供多种生态模式支持。
胡志强表示,依托国云智算底座,发挥国云安全优势,天翼云愿与产业各方合作伙伴紧密协作,广泛汇聚国内外AI芯片伙伴、各类通用大模型及行业大模型伙伴及广大开发者,共建繁荣的大模型创新生态,携手打造先进的智算生产力,全面赋能经济社会的数字化和智能化。