大数据时代的浪潮中,数据已成为推动经济增长和社会进步的关键资源。“工欲善其事,必先利其器。”在数字化转型进程中,如何激发数据价值,成为产业不得不面对的问题。
全国数据资源调查工作组发布的《全国数据资源调查报告》显示,2023年,全国数据生产总量达32.85ZB,同比增长22.44%。在数据存储方面,2023年我国累计数据存储总量为1.73ZB。这意味着生产总量中只有2.9%的数据被存储,大量数据在源头就被抛弃,造成数据资源的极大浪费。
显然,存力已然成为数字经济高质量发展的关键制约因素。确保数据的高效存取和管理,也已经成为新质生产力跃升的重要支撑。
那么,先进存力设施该如何打造?或许从下面这些先进企业的创新案例可窥见一斑,得到一些启迪。
存算并举,突破算力局限
随着生成式AI的快速发展,以多源、异构、高维、海量为核心特征的新型数据爆发式增长。如何妥善利用存储这些数据,成为AI发展的关键课题。
众所周知,在算力、算法、数据三要素中,当算力逐渐趋同、算法逐渐收敛时,数据成为制约人工智能等领域高质量发展的核心因素。数据要素基础设施存力中心可以为算力中心持续提供高质量的数据供给,充分激活算力潜能,避免算力资源的闲置和浪费,实现算力资源的高效利用。
面对“重算力、轻数据”“有算力、没数据”“业务黏性差、用户算完就跑”等业界难题,作为全国首个存算一体的存力中心,贵州主枢纽数据中心暨存力中心走出一条从“重算轻存”到“存算并举、数算一体”的转型之路。
“我们以数据要素基础设施存力中心为基础底座,打造了数据可信托管、数据治理、数据开发、数据可信流通平台,构建起数据采集、存储、标注、清洗、标准化、流通、安全保障等数据全生命周期服务能力。”全国一体化算力网络国家(贵州)枢纽节点算力运营调度中心相关专家介绍,“同时,还在联动金融、法律机构提供数据资产化、资本化服务,致力于打造‘国家级数据要素保障基地和国家级数据资产金库’。”
据悉,目前,该中心已经率先开展名人/院士数字人、智能网联汽车、文旅产业三维空间、医疗影像跨域协同等9大场景探索实践,覆盖十大行业,引流全国用户100+,当前已上线50PB存储规模,未来规划500PB,加速“东数西迁、东数西存、东数西训”战略落地,助力数据要素价值释放。
先进存力是数智时代新质生产力,通过以存强算,促进智算底座的训练、推理、安全全面升级。依托数据要素基础设施存力中心的全生命周期数据服务能力,可以汇聚海量多模态数据资源,高效实现数据治理加工,打造AI大模型语料库中心,帮助行业客户构筑新型数据中心,加速数智化转型。
作为全国新型数据基础设施以及数据资源体系的统一承载节点,数据要素基础设施存力中心肩负着全方位促进数据资源的高效收储的艰巨使命。随着枢纽、省、市以及各个行业多级存力中心的逐步建设完善,数据要素基础设施存力中心也将在打造全国一体化的数据要素市场体系过程中发挥更为关键的作用,不断推动数据资源的深度开发利用,挖掘出数据背后潜藏的巨大价值,并且积极促进数据资源在不同主体之间的流通交易,让数据在流动中创造更多的经济与社会价值,真正助力我国实现从数据大国向数据强国的历史性跨越。
样板工程:助力矿山行业发展新质生产力
矿山的全面智能化是矿业发展的重要趋势。要实现矿山的全面智能化,需要覆盖煤矿采、掘、机、运、通等环节的300多个核心场景。这一过程数据快速膨胀,大模型也从机器视觉、自然语言处理逐渐走向多模态,数据处理复杂度呈现指数级增长,传统存储面临性能、绿色等诸多挑战。
“算力跑得快,存力要跟上,存力和算力需要相互协同。在矿山智能生产、安全作业、经营决策以及设备管理领域,引入矿山大模型进一步解决矿山智能化建设中的一些难题。通过‘AI大规模下矿’,实现‘高效、安全、可持续’的生产运营管理。”山西联通专家表示:“山西联通通过高性能AI存储强化大模型的系统可用性、高效性,实现算力性能提升,助力矿山多样性数据使用更高效,复杂业务负载更可靠,海量数据存储更经济,满足AI智算领域高性能存储产品全维度需求。通过部署先进存力持续挖掘数据价值,提升AI训练、推理能力,实现智能应用持续迭代升级,进一步培育良性生态;提升运营服务能力,赋能煤矿智能化应用建设。”
产业合力,释放数据价值红利
数据显示,我国存力规模不断扩大。截至2024年6月底,我国存力总规模已达1250ZB,先进存力容量占比超过25%。以华为为代表的中国科技企业不断突破,计算、存储和网络技术协同创新,打造中国科技的全新名片。
“中国的数字化应用进程发展很快,存、算、网要协同发展,为中国提供可持续供应的算力基础设施,为世界提供更好选择。”华为公司副总裁、数据存储产品线总裁周跃峰博士表示,“华为公司致力于打造存、算、网协同的算力基础设施,更好地帮助数据流动更加顺畅、数据资产越存越多,从而为中国数字经济打造坚实的基础。”
值得一提的是,由中国信息通信研究院、中国通信标准化协会主办的第二届“华彩杯”算力大赛全国总决赛近日圆满结束,吸引了众多企业、科研机构和高校等参与,为推动业务模式创新,带动我国算力基础设施与各行业深度融合,赋能千行百业,助力我国数字经济高质量发展发挥了重要作用。
前文提到的诸多标杆案例,在“华彩杯”中均取得不俗的成绩。比如“全国一体化算力网络国家(贵州)主枢纽中心先进存力中心暨数据要素汇聚中心建设”项目,荣获了全国总决赛一等奖;“面向煤矿场景下人工智能的高性能存储项目”取得了2024“华彩杯”大赛中区一等奖、全国二等奖的成绩。其中,自然也不缺乏华为的身影。
就拿贵州主枢纽数据中心暨存力中心来说,华为存储在其中扮演了至关重要的角色。凭借华为DCS全栈解决方案、OceanStor Pacific全闪分布式存储以及OceanProtect数据保护存储所具备的TB/s级带宽、EB级灵活扩展以及全方位数据保护等卓越性能,该存力中心能够达成海量数据的低成本存储,并高效释放数据效能,从而为数据驱动、算力赋能的全新时代的来临筑牢了坚实根基。
在联通相关方案里,联通巧妙地将ModelEngine与华为推出的OceanStor A系列存储相互配合,进一步强化了数据存储和处理的性能。这种组合能够提供10TB级带宽以及亿级IOPS,足以满足混合负载的高性能需求。ModelEngine与高性能存储系统携手,能够更充分地发挥存储系统的优势,实现数据的快速存储与读取,为AI训练提供强有力的存储支撑。
以山西联通促进矿山智能化的项目为例,其背后离不开诸多产业伙伴的大力支持。山西联通相关专家表示:“我们从三个方面着手设计,以此构建AI高性能存储集群。首先,为契合煤矿应用场景对于‘大容量、高I/O、高带宽’存储性能的要求,我们选定了华为OceanStor AI存储,借助其高密多节点、Half-Palm盘设计以及DPC客户端等,实现了单机400GB/s带宽、1200万IOPS的卓越性能,有力保障了煤矿企业数据智能处理的性能优势。其次,依托华为数据管理引擎DME来构建数据全生命周期管理体系,进而实现风险故障的智能预测,将问题定界时长大幅缩短至分钟级。最后,为应对海量数据的低成本存储难题,OceanStor AI存储与OceanStor Pacific分布式存储集群支持热温冷数据智能分级,实现了单集群内生产存储、备份存储以及归档存储之间的分级流动,最终达成整体TCO(总体拥有成本)最低的目标。”
与此同时,我国存储产业还存在诸多挑战。为进一步加快先进存力产业发展,释放数据价值红利,以先进存力强智算底座赋能千行百业新质生产力跃升,需要从技术、产业生态、应用实践等多个方面共同推进。