随着服务器虚拟化的广泛应用,云计算技术已经成为效用计算的下一个发展方向,在云计算时代,我们能够像使用电力资源一样消费计算资源,并且按需付费。云存储的应用则脱胎于Amazon的S3服务(Simple Storage Service),而且很快就被其他服务运营商所效仿。然而,较差的性能以及出于对安全问题的担忧始终笼罩着云存储,让它的众多优点黯然失色,同时也阻碍了这项技术进入主流的企业级市场。云存储最早的一批用户主要是创业型公司、开发团队以及消费类用户。不过,“云存储”自身也在不断发展,并且有望成为数据中心应用的一个有效补充。
天性保守的企业IT管理者认为使用公有云存储风险太大。但是,这种传统的认识正在悄然改变,并非是因为人们改变了对公有云存储安全问题的看法,而是因为内部私有云存储的出现。私有云提供了将企业关键数据应用安全地扩展到外部公有云存储服务的解决方案。随着云计算及相关技术热潮的来临,客户的关注度不断提高、各种分析预测和新闻报道也大量涌现,这一切都显示出云计算市场已经步入重要的转折阶段,不久之后我们就能见到,企业客户采纳云存储的步伐会越来越快。
云存储的定义
对于厂商来说,把他们的技术与热门的云计算应用捆绑在一起,提高关注度,无疑是巨大的诱惑。而将原有产品简单的重新命名为“云XX”则是常见的手段。但通常情况下,我们不能简单地把传统的SAN和NAS设备看做云存储,因为它们提供的是共享模式的存储资源。“SAN实际上并不具备云存储的特点--动态性、弹性与灵活性。云存储可以随时、随地的随需访问,而SAN系统则通过Zoning分区,使用WWN(world wide names)地址。本质上SAN的应用是静态的。”ESG高级分析师Terri McClure说。传统的垂直扩展模式的SAN和NAS产品更是如此。而有些采用Scale-out横向扩展架构的block协议存储设备,如3PAR公司的InServ Storage Server,可以实现自动优化和负载均衡,在SAN层面实现负载的动态分配;横向扩展的NAS产品也大同小异。不过,即使能够横向扩展,SAN和NAS也并不适合做大规模公有云存储应用。
真正的云存储产品应该具备如下特点:
- 通过网络访问
- 可共享
- 以服务的形式销售,并且按需付费
- 具有非常大的弹性,容量可以动态缩减或者按需增长
- 系统规模可以按需扩展或者缩减
目前,云存储主要用于保存非结构化数据。非结构化数据是增长速度最快、最多也是最难管理的数据类型 .云存储技术并不适合结构化数据应用,比如数据库。因此,结构化数据应用的主要平台还是传统的企业级存储设备。
云存储的好处
对于非结构化数据应用来说,使用云存储的好处显而易见--存储的总体成本更低。云存储属于一种服务,因此不需要采购、管理和维护存储硬件设备。根据服务类型的不同,云存储即使不能完全消除成本,也能够大幅降低数据中心的成本和存储管理员的负担。使用云存储服务还可以避免昂贵的技术升级开销,这种技术升级一般3至5年就要进行一次,有的是为了获得最新的技术,有的只是为了给旧存储设备购买代价不菲的维保服务。
为了满足预期的数据增长量以及处理应用峰值的要求,传统存储系统往往需要预留大量的空间资源。云存储应用通过削减这部分闲置的空间资源,通常能够达到接近100%的存储资源利用率。除了降低存储的总成本之外,云存储的可扩展性,以及从基本应用到峰值负载的线性处理能力,都是其引人注目的特点。
公有云存储
目前,公共云存储服务商的数量在快速增长,包括AT&T、Amazon、Iron Mountain、Microsoft、Nirvanix、Rackspace Hosting等许多公司。他们使用的存储架构通常由低成本的存储节点附加直连的消费级硬盘组成,通过基于对象的存储堆栈管理进行跨节点的数据内容分发。对云存储的数据访问一般使用Internet协议,常见的协议是REST(Representational State Transfer),少数情况下会使用SOAP(Simple Object Access Protocol)。在云存储上,每个数据对象至少同时在两个节点上保存,以获得最佳的可恢复性和冗余度。云存储服务的基本收费模式一般以“X美元/GB/月”为单位进行计算,各服务商的收费模式略有差异,也许会有一些附加费用,包括按数据传输量计费以及网络接入费用。
海量的多租户安全应用是公有云存储设计的基础。在云存储平台中,每个客户的数据以及所进行的访问都是相互隔离的。公有云存储上可存放的数据类型非常广泛,从静态的非核心应用数据、需要在线保存的归档数据、到备份数据和容灾数据等等。而对那些随时会发生改变的活动数据,云存储并不适合。企业用户对云存储应用最主要的担心是安全问题,其次是性能问题。
私有云存储
私有云存储系统通常运行在企业数据中心内部的专用硬件设施上,它不但具有同公有云存储一样的优点,还能够解决安全性以及性能这两个最关键的问题。私有云存储的用户(租户)通常只有一个,即使是大型企业,也仅仅是利用多租户的特性,将不同部门或分支机构的访问进行隔离。与公有云存储相比,私有云存储系统对扩展性的要求不高,因此私有云存储引擎的后端连接的很可能是传统的存储硬件设备。有个恰当的例子可以说明这一点,HP的CloudStart平台就是由HP BladeSystem Matrix刀片服务器、HP StorageWorks EVA系列磁盘阵列以及Cloud Service Automation(CSA)软件整合而成的私有云存储架构。HP的CloudStart本身不是私有云存储,因为它缺乏一个关键的元素,即“以服务为基础”;不过,HP自己或他的合作伙伴都可以使用这套基础设施,这些企业甚至可以把CloudStart当做一个具备完善管理功能,随用即付费的云存储产品提供给客户。
另一个私有云存储的例子是HDS的Cloud Service for Private File Tiering(面向私有文件层的云服务),一个源自HCP(Hitachi Content Platform日立内容平台)产品的私有云存储系统。HDS的私有云存储设施放在客户的数据中心里,但它归Hitachi所有,并由Hitachi负责管理。除了初始安装费用之外,用户只需按照使用的空间支付费用。类似的产品还有Nirvanix公司的hNode,同样在企业数据中心提供私有云服务。hNode也能提供完善的管理功能并采用随用即付费的销售模式。Nirvanix的技术架构叫做SDN(Storage Delivery Network),跟HDS的很相似。
混合云存储模型
虽然私有云存储的出现化解了用户对公有云应用性能和安全性方面的担忧,但是对于非结构化数据应用来说,私有云的必要性不大。首先,私有云存储系统在设计上并没有利用已有的存储设施。事实上,构建它有一定的前提,需要数据中心的场地、电力、机架空间以及冷却系统。私有云存储运行在专用的硬件平台之上,因此也不可能扩展到像公有云存储那么大的规模。大多数的非结构化数据是静态不变的,很少使用,因此没有必要在数据中心本地部署前置设备或私有云。
因为这个原因,混合云存储应运而生。混合云的形式一般以传统存储系统或私有云存储为主,公有云存储作为补充。然而,一个理想的混合云存储平台必须满足几个关键的条件:首先,混合云存储的整体表现必须均衡,除了会产生一点网络延迟之外,访问公有云上的数据应该是无缝透明的。此外,数据迁移的机制必须保证活动的和经常访问的数据能够快速被访问,而静态数据则被推向云存储。因此,混合云一定要有智能的引擎,用来定义数据的移动策略,即何时推向云,以及何时从云端迁移回来。
实施混合云存储,主要通过三个途径:
- 利用云存储软件,将本地存储和公有云存储整合在一起
- 使用云存储网关设备
- 通过应用程序集成
基于软件的混合云存储架构
目前,在不使用网关设备,用户也不能自己动手集成的情况下实现混合云存储只有一种可能,就是通过在私有云和公有云存储上运行一套软件,将两个存储系统结合在一起,构成一个单一的非对称存储云。相关技术的标准化工作正在积极地制定过程中,比如SNIA(Storage Networking Industry Association)定义的CDMI(Cloud Data Management Interface)。如果缺乏统一的技术标准,集成这种非对称的云存储是无法实现的。因此,我们看到,云软件厂商把他们的产品销售给硬件制造商以及服务运营商的产业模式是创造混合云的必要前提。同时,还有些云存储厂商把他们的硬件堆叠打包并以私有云存储的名义推向市场,这种产品一般可以跟他们的公有云存储服务方便地进行集成。
后一种类型的典型代表是Nirvanix.直到不久之前,Nirvanix还只能提供纯粹的公有云存储服务,但在该公司发布hNode私有云存储产品之后,用户现在既可以在企业内部使用Nirvanix的云存储系统,又可以根据需要补充Nirvanix Storage Delivery Network公有云存储。
Rackspace公司此前提供基于云文件系统(Cloud Files)的公有云存储服务,现在,它把自己的Cloud Files转为开源项目,并创建了OpenStack.org以推进该项目的标准化进程。Rackspace试图建立用户端到服务运营商之间的混合云架构,就像他们之前提供的公有云存储服务一样。
以前,构建一套云存储服务平台只有两种选择:要么自己开发解决方案;要么使用开源的云存储软件,比如Luster或MogileFS,但使用开源产品的同时也必须接受它的特性和局限性。最近1、2年,商业化的云存储软件越来越多,相关厂商也都把企业级用户和运营服务商作为目标客户。
在目前可用的商业化产品之中,EMC的Atmos是最突出的一个。Atmos是一个以软件为核心,支持硬件跨平台,基于对象的堆叠存储系统。它的结构包括三层松散耦合的服务进程:表示层提供客户端接口,包括REST、SOAP和传统的文件系统协议;元数据管理层决定数据对象保存在哪个存储节点,以及数据冗余保护和分布的策略;最下面的存储层是存储节点的接口。Atmos可以运行在专用的硬件或VMware虚拟机之上。作为一个使用scale-out横向扩展架构的系统,通过简单的增加存储节点,最大可以扩展到PB级的存储规模。EMC通常向企业级用户和运营服务商推销Atmos,在客户端部署的前置系统能够同Atmos云服务相互绑定。
EMC最大的客户是AT&T.AT&T的Synaptic Storage是虚拟的私有云。然而,作为混合云存储,它的模式与其他公司的产品差别很大。Synaptic Storage运行在AT&T自己的数据中心内,客户却可以通过AT&T的MPLS网络访问该系统。通过这种方式,AT&T将私有云的安全性和高性能与公有云的经济性和扩展性很好的结合在一起。
除了EMC的Atmos,还有几种云存储软件产品值得我们介绍。Caringo公司的CAStor Content Storage Software软件是一个定位于CAS(content addressable storage)内容寻址应用的云存储产品解决方案。Cleversafe公司的云存储平台则利用IDA(information dispersal algorithms)算法将数据切片,并分散保存在云存储平台的多个节点上,这样可以降低数据复本的需求。Cleversafe宣称与那些为了保证冗余度而必须在存储节点上保存多份数据拷贝的产品相比,他能做到更高的存储资源利用率。
混合云存储网关
云存储网关位于企业内部的存储系统与公有云存储之间。它的主要功能是将传统的存储协议转换成专用的云存储协议和API.以前,公有云存储只有在和应用定制集成之后才能被访问。现在,通过云存储网关,企业内部存储上的数据就可以迁移到公有云存储上,反向亦然,这通常取决于策略引擎的设置。
各厂商提供的云存储网关之间的差别主要体现在几个方面,首先要看产品是基于block协议还是基于文件协议,这决定了它们在企业数据中心的角色,是块存储设备还是NAS装置。数据去重和压缩功能是云存储网关的关键特性,因为这两种功能对云存储的使用成本影响非常大,而且传输过程中和云存储端的数据加密是非常必要的。有些网关对备份和归档应用做了特殊的设计和优化,有些则与Microsoft Exchange和SharePoint之类的应用紧密集成,还有的产品被设计成交易处理型的存储结构中的一层,作为企业内部存储的补充。
与应用集成的混合云存储
所有的公有云存储服务都提供API,以便私有云存储软件和云存储网关与其进行互联。但这些API也可以直接被应用程序调用,实现应用程序与公有云存储的集成。云存储API能够帮助企业内部应用或商业应用系统通过REST接口充分利用公有云存储的资源。
举个例子,备份软件厂商已经开始在他们的备份产品套件中提供对公有云的支持。比如Symantec的NetBackup和Backup Exec,以及CommVault的Simpana备份软件都可以同公有云存储集成。
企业级客户的态度--乐于接受云存储
过去,企业级用户在很大程度上是远离云存储应用的。不过,随着私有云存储的出现,以及企业内部存储应用逐步附加了安全集成公有/混合云存储的功能,企业安全地将现有存储应用扩展到云存储之上已经变得越来越现实。
最近云存储被热炒,不过主要是在消费、移动应用领域,以及像Google、Dropbox之类的公共云服务。根据Gartner的估计,即使再过5年,主流的企业级用户也不可能完全采用云存储。但在此期间,企业级用户很可能策略性地增加一些混合云存储作为他们现有存储设施的补充。