随着云时代的到来和SaaS概念的引入,越来越多的企业开始选择由SaaS应用提供商、运营商等通过互联网平台提供SaaS应用服务,SaaS应用的数据量面临着TB级的增长速度;不同的SaaS应用体系,提供的数据结构也不完全相同,数据有文本、图形甚至小型数据库;SaaS应用数据随着云服务平台的分布性特点,有可能分布在不同的服务器上,如何对这些异构异源的数据进行数据挖掘,是云时代的企业面临的难题。
云时代企业数据挖掘面临的挑战
挖掘效率:进入云计算时代后,BI的思路发生了转换。以前是基于封闭的企业数据进行挖掘,而面对引入互联网应用后海量的异构数据(据预计到2020年,爆发式增长的数据量将突破35ZB(1ZB=10亿TB))时,目前并行挖掘算法的效率很低。
多源数据:引入云计算后,企业数据的位置有可能在提供公有云服务的平台上,也可能在企业自建的私有云上,如何面对不同的数据源进行挖掘也是一个挑战。
异构数据:Web数据的最大特点就是半结构化,如文档、报表、网页、声音、图像、视频等,而云计算带来了大量的基于互联网模式提供的SaaS应用,如何梳理有效数据是一个挑战。
SaaS应用的数据挖掘希望能够通过海量数据存储平台,引入快速并行的挖掘算法,提高数据挖掘的质量。
如何选择合理的基础架构
对于企业而言,如何将各种应用数据进行整合挖掘,提炼出适合其使用的商业信息是企业的一大急迫需求。传统的BI模式大多基于数据仓库,是关系型数据库的模式。面对急剧增长的异构数据,传统的数据仓库和原有的并行计算技术由于挖掘效率低,已经不能解决海量数据挖掘工作,影响着数据的及时提取。
一直以来,商业智能系统往往基于传统的SMP架构小型机而构建。随着近年来X86平台的性能与日俱增、可用性日渐提升、扩展性飞速增长,X86平台在越来越多的市场领域开始侵蚀小型机份额,商业智能也成为X86架构向RISC小型机发起进攻的另一个战场。例如,Oracle推出的基于英特尔至强平台的Exadata数据库云服务器,通过独有的smartscan技术,以及数据处理过程下移的设计,在X86架构基础上同时提供了较高的OLAP性能(数据仓库应用)和OLTP性能。此外,IBM也推出了基于X86平台的商业智能解决方案,基于IBM独有的EX5架构服务器和XIV网格存储系统提供了不输于小型机的智能信息处理能力。
选购要点:
1、高可用性:BI的基础架构层,需要建立起数据挖掘云服务平台,而这个平台,必然是高可用性的。
从高可用性来看,需要集中解决三个方面的问题:一是数据保护,需要利用CRC、ECC等硬件机制来对传输的数据进行校验、纠错,如果无法纠正,就将损坏的数据进行隔离,以保证不造成更大的数据,避免系统的重启和宕机。
目前英特尔至强7500或E7合作的方案拥有诸多优势,如成本低、性能高、可靠性(RAS)高、可扩展性好等优势。在可扩展性能上,X86平台横向的向外扩展功能,即由两台以上的机器构成集群。能满足大多数企业关键应用环境的负载需求,包括对内存和CPU要求都较高的数据库、商业应用和虚拟化。进而避免传统UNIX双机方案“成本高昂,备机资源平时严重闲置浪费,主机故障切换期间用户服务被迫停顿”等诸多困境。
此外,7500一些设计已经将计划宕机时间最小化,这当中包括系统分区管理技术、CPU和内存的热添加和热移除等,将系统维护时间降低到最小。
2、虚拟化:数据挖掘云服务还是要依赖于虚拟化技术,要计算资源自主分配和调度,也就是说虚拟化技术是数据挖掘云服务技术的支撑。
千万不要被概念忽悠
大数据有很多不同的使用情况。因此,企业需要根据自身业务情况采用不同的的数据挖掘平台。对于那些注重应用分析和处理要求的客户来说,有很多专门的解决方案,例如惠普Vertica,此外还有很多高性能NAS或者目标系统。
同样地,对于注重视频、安防监控、闭路电视、模拟仿真、大带宽或吞吐量的话,可以考虑惠普Ibrix、戴尔Exanet、BlueArc、HDS、NetApp、Data Direct Networks、Oracle 7000、EMC Isilon和VNX等。
总的来说,用户可能会面对一大堆劝说你迁移到更昂贵系统的市场炒作。可能你现在的系统已经足够好的——如果可以扩展的话,厂商提供给你的并不一定可能很好地运行在你目前的环境下。
对用户而言,需要警惕各种关于大数据的炒作,他们也许想要缩小你的选择范围。除了大数据所能带来的机遇之外,还有很多不同的方面需要考虑,例如它的特性、应用、使用实例以及部署方案。