Q:请问我们利用云计算解决大数据量问题的时候,遇到的最大的困难是什么,是技术层面,还是基础设施,带宽或者是其他方面的因素?
A:现在还没有看的那么清晰。麦肯锡今年出的报告,是从经济层面看的,大数据本身更多涉及到的是几方面的问题。
第一是技术本身。现在处理大数据的技术都是前沿的技术,接受度和采纳度都是尝试,都是在一个前期阶段。
第二是用户的接受程度。数据本身,尤其是云上的大数据处理,涉及到谁能够使用这个数据,分析出来的结果,谁能够负这个责任,就是拥有这个数据,比如说我针对现有的应用环境分析出来的用户行为是这样的,我们把运营商数据包解析出来了,扫出了二三十万的号码字段,这些字段,我认为就是计算,这些字段的责任谁来负,数据本身的责任体制法规,现在法制也不完善。所以,我们现在更多是看,关注大数据,经济效益,内容分析、行为分析,都是比较直截了当的,能够有效率、有产出、直接反映生产力的这块技术也比较成熟,比如说现在的Hadoop框架、友友体系这块是我们关注的方向。
第三是数据存储。目前为止,技术比较就绪,就是大数据的存储,并不是简单涉及到容量的问题,涉及到的是怎么能够找回数据的访问能力的问题。比如说,怎么提取数据的标准,比如说事实的标准,如AmazonS3,它在北美,不可能立在中国。我们国内遵循什么样的标准,友友系统自己做了一套,国际的标准化组织也出了,比如说CDMI的标准,但是这个标准,追逐的厂商现在还没有成气侯,大的公司也只是尝试采纳。
这些都是我们的障碍,大数据如何快速在国内业内普及的问题。
Q:法规规范、标准对云计算发展来说是很重要的?
A:我觉得是这样。如果普及的话,这些是必需的。大家都认可以后,才可以这样做。但是这并不是障碍,先行者可以用自己的标准,比如S3出来的时候就没有标准,S3就成了北美的标准了。很多中间件厂商,都用S3做云中心的平台,S3的界面服务提供数据访问通道的标准。所以先行者—云基地,我们走的快一些,我们做的前一些,我们将会成为标准的制定者,我们也会参考国际标准化组织的通用标准,比如说CDMI。国内大云也是部分遵循了,毕竟未来要跟巨头沟通,IBM、EMC要沟通,肯定需要走国际体系的,这些我们也会考量,遵从他们的尝试。
Q:您看,云计算在中国普及之后,可以以非常低的成本,获得大的存储空间或者超级计算机的能力;而现在存储空间有限,可能会精挑细选筛选信息存储,但以后存储空间对我来说不是问题了,会不会造成很多没有用的信息放在云上,这样是否造成资源浪费?
A:其实我们看到的信息里,人为本身产生的信息量有限的。通过人判断这个信息是否有使用价值,在整个信息的架构里,比例越来越小,更多的信息是来自于机器产生的信息,比如说物联网产生的大量信息,比如手机的话单,可能平时我们根本不关注,只需要看一下最终的详细单就可以了。那些信息,在传统意义上很多被过滤掉了,当做垃圾去掉了,但是这些信息本身是可以产生很强的信息红利的。
举个例子,运营商做网络优化的系统,就是,可能派出一个工程队到处打电话,通过采样的形式做网优,在某一个计价系统里面都有手机上线下线的信息,只不过这些信息原来不作为计费使用,都被过滤掉了,因为数据量太庞大,没有能力计算,现在云计算提供一种可能:针对这些数据,就可以实现分析出来每一个区域的网络情况,样本数据库本身就是数据库,所以可以实现更大规模的优化。所以机器产生的信息,才是真正未来大数据本身能够创造红利价值的。
我们有个概念叫数据银行,我提了很多次,就是看怎么操作这个内容,因为技术本身需要找落地的方式方法,以及规定支持。信息数据和传统物品的区别在于,信息数据是可以被拷贝的,被盗取实际上就是被拷贝。数据同样可以跟存钱一样产生利息的,比如说我们每个病患的信息,单独放在医院里面是没有太多价值的,只是作为以后个人的需求,如果这些信息被医疗机构共享,那就可以统计出来最近的感染率,对于病理研究、前瞻性的研究就会有很强的指导意义。我们把这些信息汇总起来,提供某些服务的时候,这些信息就可以产生相应的红利了。我们可以为存储这些信息的人付利息,也就是说有可能像您提到的问题,在考虑是否买空间放到数据银行,放在那里还要交钱,这是现在网盘的经营模式;如果放过去以后,能保护数据,又能给我钱,是否就更愿意去分享数据了。
Q:就是通过这种方式,促使用户自身筛选信息放到云上。
A:用户有一个取向。用户在考虑是否在云上存放信息的时候会考虑到隐私问题。这,这就涉及到革新的产品结构了,比如我们谈到的对象云存储,实际上当存一个信息进来的时候,是先放到一个信封里再放到银行的,怎么找到这个信息呢?信封上有描述信息的字段,描述的信息可以定位信息本身,就是元数据操作。这里就涉及到一个隐私问题,如果X光片放到一个信封里面存到数据银行里面,当病理机构调我X光片的时候,如果看到胸片,我会感觉到,我的名字出现在这种情况下是比较介意的,如果只看封面的信息,或者某些字段的信息,就不存储隐私泄露问题。这样的话,只做统计分析,看一万张封面,然后找到某一个规律,是没有涉及到我个人本身的隐私。
通过这种封装的技术,在技术本身结构框架上,就可以使得法规问题就绪了。现在的过程是需要不断的引导,跟政府、相关各方面的实体沟通,创建企业级分布式云计算。