据与会专家告知,大数据的技术方案需要四个方面的必备条件。
在技术层面上,大数据处理技术种类繁多,包括数据仓库技术、Hadoop、NoSql、流式处理技术等。其中Hadoop作为一个开源的能够对大量数据进行分布式处理的软件框架,近来不断受到业界追捧,谷歌、亚马逊等世界领先的互联网公司也公布了基于Hadoop的成功案例。一些声音甚至表示,Hadoop就等于大数据。
据了解,针对上述发展动向,目前中国联通等国内运营商和一些大型企业已分别开启了Hadoop的大数据探索之路。其中已经先期开展的应用,就是通过采用英特尔硬件平台及英特尔Hadoop相结合的大数据技术,构建上网记录集中查询与分析支撑系统,用以解决以往用户上网记录无法查询的难题。但也应该看到,这种技术不仅需要IT设备的投入,其对人力成本以及对操作人员的技术水平都有相当严格的要求。因此,目前自行开发Hadoop平台的,都是具备一定开发能力的互联网企业,而运营商在这方面并不擅长。
目前业界在大数据业务支撑系统方面已经有了很多研究,中国移动也在积极进行研究探索。其技术上的难点,包括如何整合运营商内部已有“烟囱式”的各类经营分析系统,以建设一个开放接口的共享数据平台;还包括如何解决海量数据的采集、存储和安全问题,等等。
未来大数据的技术方案至少应该具备四个条件:一是应该具备数据分析速度优势,在查询效率上比传统系统要有大幅提高;二是应该具备大规模扩展能力,形成数据横向、纵向扩展能力的提升,包括跨服务器数据处理能力的优势;三是应该具备开放架构优势,一方面是对Hadoop的支持与集成,另一方面则是提供各个平台间,甚至需要建立与第三方平台间的自由的传输数据和存储;四是应该具备完善的自我学习能力,以便在海量数据挖掘后,形成不需要人工干预的策略自我归集。