专业的信息化与通信融合产品选型平台及垂直门户
注册 登陆 设为首页 加入收藏
首页 企业新闻 招标信息 行业应用 厂商专区 活动 商城 中标信息

资讯
中心

新闻中心 人物观点
厂商专区 市场分析
行业
应用
政府机构 能源产业 金融机构
教育科研 医疗卫生 交通运输
应用
分类
统一协作 呼叫客服 IP语音 视频会议 智能管理 数据库
数字监控 信息安全 IP储存 移动应用 云计算 物联网

TOP

向巨头学习:如何应对海量数据的挑战?
2011-05-24 10:05:34 来源:IT168 作者:【
关键词:巨头 数据
 
第三届中国云计算大会于2011年5月18-20日在北京国家会议中心圆满闭幕,本次大会以探讨云计算的应用之路为宗旨,针对当前云计算的热点话题,设立了9个主题论坛。在20日下午的 “云计算中心技术架构”主题论坛上,来自百度首  席科学家威廉·张、RackSpace CTO John Engates、Yahoo!北京全球研发中心架构师韩轶平、SAP中国区企业信息管理资深顾问杜韬就“应对海量数据库的”这一话题进行了深入的探讨。

  第三届中国云计算大会于2011年5月18-20日在北京国家会议中心圆满闭幕,本次大会以探讨云计算的应用之路为宗旨,针对当前云计算的热点话题,设立了9个主题论坛。在20日下午的 “云计算中心技术架构”主题论坛上,来自百度首  席科学家威廉·张、RackSpace CTO John Engates、Yahoo!北京全球研发中心架构师韩轶平、SAP中国区企业信息管理资深顾问杜韬就“应对海量数据库的”这一话题进行了深入的探讨。

  随着物联网、社交网络等新的互联网技术的发展,在为人们带来便利的同时,也产生了大量的、结构化的非格式化的数据。如何通过数据挖掘,从海量数据中获得有用的信息,为用户提供好的用户体验,增强企业的竞争力,这对企业来说是一个挑战。

  图1 圆桌论坛:如何应对海量数据挑战?(从左至右:百度首席科学家威廉.张、RackSpace CIO John Engates、Yahoo!北京全球研发中心架构师周轶平、SAP 中国区企业信息管理资深顾问杜涛)

  各巨头的数据量级大曝光

  百度威廉.张表示,“数百PB,每一天需要处理的数据是数十个TB,许多数据要在几秒钟之内处理,很多数据在几分钟之内要处理,更多的是几个小时之内处理就够了,几个小时处理数十个PB的数据,也是很困难的。所有的策略都是针对实时性和数据处理的时效性理来做的。互联网用户的需求是更加实时,如微博、团购、秒杀等,所以说实时处理十分重要。”

  Yahoo!周轶平谈道,“雅虎的云计算平台综述超过三万台机器,最大的超过4000太左右,总存储容量超过了100PB。”他表示,雅虎最近放了很多精力在保护用户的隐私和数据安全性上,欧盟规定雅虎不能够存储用户的数据超过一百天,虽然不能保存,但是雅虎做很深入的数据挖掘,从数据瓦局得到一些真正有价值的信息,并把这些信息保存下来。”

  SAP杜涛也介绍了其需要帮助客户处理的数据量的级别,“SAP作为企业级应用的提供商,更关注客户的数据量是多少,这些客户包括中小型企业到大型的客户,其中有数据密集型的企业,如电信、金融、政府、零售等等,客户的数量级包括从几个TB到数百个TB。”同时,SAP自己有一个很大的数据中心,主要是为SAP的客户提供服务,有三万台服务器,数据量大概是15TB并且有越来越多的客户的数据会在SAP的数据中心。

  如何存储并利用这些海量的数据?

  如此海量的数据,如何进行存储、分析、处理?并基于海量数据的挖掘,为企业创造更大的商业价值?针对海量数据的挖掘的技术架构,几位专家分别介绍了自己的法宝。

  SAP杜涛从两个方面介绍SAP的海量数据处理方法,“一方面,在SAP的数据中心,采用了标准的云计算所用的虚拟化和分布式存储;另一方面,针对单独的企业,SAP在4月16号在德国发生了内存计算技术。海量数据的读取和分析,在传统的架构下,基于磁盘的IO是以毫秒级来计算的,而在内存RAM中处理时间是nm级的。所以SAP把客户的数据经过压缩的处理放到内存中去,进行读取和分析,把之前在应用层的分析放到内存里面去做,提升性能,帮助用户充分利用他们的数据。”

  Yahoo!的云计算的体系是以Hadoop为中心的,周轶平介绍到,并从数据采集(HDFS)、数据存储和处理、数据服务三个层面入手,介绍了雅虎的海量数据处理的方案。数据采集方面,yahoo建立了Data Have负责从雅虎遍布全球数据中心中的几十万台机器上实时收集数据,它有2个干道,主干道负责把数据以很高的一致性经过各种过滤清理以后,放到Hadoop的平台上。但是这样的处理方法实时性不是很高,为了满足实时性的需求,还有一个旁道系统,能够在秒级直接将数据源导入到Hadoop上。雅虎的数据处理都是基于Hadoop的实时的服务,同时Yahoop还有一套很大的不同业务逻辑所需求的服务系统,超过一半的数据处理都是使用Hadoop Pig数据引擎。

  百度威廉.张表示,面对互联网的云计算,大搜索是基于索引的,如何对数据进行实时地快速的更新,就需要进行一些优化。比如说根据数据更新的频率,建立在更新系统快或是更新系统慢的系统之上,根据地域的登录跟重要性的登录把它放到南方或者是北方的机房里,也就是说,主要是根据数据的应用来策略。机器学习的算法,内存里面的数据进行高复杂度的计算,可能要花费很长的时间,这在百度的环境中是不行的,无论是判断用户的需求、从用户行为中得知需要推荐什么内容和什么广告,这些都需要非常高的时效性和极规模的机器学习。

      

责任编辑:admin
免责声明:以上内容转载互联网平台或企业单位自行提供,对内容的真实性、准确性和合法性不负责,Voipchina网对此不承担任何法律责任。

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部

上一篇如何利用虚拟化和绿色技术降低存..
下一篇深圳云存储将获发展新机遇

热门文章

图片主题

最新文章

相关文章

广告位

Copyright@2003-2009 网络通信中国(原VoIP中国) 版权所有
联系方式:503927495@qq.com
  京ICP备05067673号-1 京公网安1101111101259