要让云存储很好的发挥功能,一些观念是不合适的。
云存储的四个基本方面是:
·容易管理
·自我复制
·自我修复
·自我平衡
最基本的观念是存储容易管理(谁要使用现在的工具和概念管理一个PB规模的存储系统?)。采用云存储,管理员详细制定有关存储功能如何发挥作用的政策。管理员基本上要确定在这个存储中的每一个数据文件或者每一种类型的数据文件有多少个副本。然后,文件系统跟踪数据以保证这些政策的完成。
从技术上说,也许最基本的观念是文件系统是自我复制的。如果一个节点发生故障,这个文件系统必须做出反应,让这个节点离线,然后检查那个节点上有什么数据并且保证根据政策把那个数据复制到其它节点。这个想法就是使用上面讨论的RAIN并且进入到云存储如何发挥功能的核心。
自我修复技术可以包括这个文件系统实施数据检查的校验和,检查损坏的数据和改正其它副本中的损坏的数据。这包括检查数据传输以保证传输的数据与存储中的数据是一致的。
存储的另一个重要的方面是自我平衡。理想的情况是这个文件系统应该在存储中到处移动数据以最大限度减少热点以便平衡存储。这种平衡可以是为了性能(虽然云存储通常被认为是低性能的存储)或者容量。在这个文件系统中还有基于故障模型的探索方法。这样,副本在存储中的位置是平衡的(也就是说副本存储在哪一个节点是平衡的)。
然而,每一种类型的存储在实施中都有一些挑战(也就是说恶魔在细节之中)。这些挑战包括:
·安全(总是一个问题,不是云存储的具体问题)
·数据完整性(保证存储的数据是“正确的”)
·电源(由于你有副本,你将有需要增加电源的额外的存储)
·复制时间和成本(你复制数据的速度有多快,因为这对于数据弹性是非常重要的)
·成本(你有多少额外的资金购买副本的额外存储)
·可靠性
HenryNewman的文章详细讨论了最后一个问题……虽然RAID能够容忍失去一个或者两个硬盘,但是,RAIN能够依靠复制保持数据的弹性。因此,它能够以多快的速度复制数据和保持的数据完整性如何是云存储有用性的关键。
云存储的两个例子
有一些(很多吗?)云存储的例子。但是,这里讨论的例子是市场上的例子。这两个例子是Caringo和Parascale。
这两个概念是非常相似的。
你有一个有一些存储的节点,可以是内部的,也可以是外部的。这个节点能够用作云存储的一部分,只要它们能够使用TCP/IP协议相互之间进行通讯。你可以安装这个软件或者访问一个优盘,这个新的节点就把自己添加到这个存储池。你不需要RAID,只需要许多存储(也就是所谓的“cheapanddeep”<廉价和深的>战略)。这个元数据是分布式的。因此,如果一个节点发生故障,总有另一种方法得到元数据(真正的数据)。然后,管理员创建一些政策,你可以让数据进出这个存储池。
访问这个存储是两个例子与其它系统稍微有些不同的地方。它们每一个都有相同的访问协议。
·HTTP
·WebDAV
·FTP
·NFS(以某种形式)
注意,它们都没有客户端软件,因此,各种系统都能直接访问这个文件系统。你不用使用以前提到的任何一个协议就可以访问数据。
总结
云存储系统有许多承诺。它们对于数据弹性使用一种不同的方法:把RAIN与基于对象的或者对象式的文件系统和数据复制(数据的多个副本)结合起来创建一个非常有伸缩性的存储系统。按照设计,它们不是高性能的文件系统,而是非常有伸缩性的容易管理的存储系统。
每一个东西都有自己的吸引人的特点和不吸引人的特点。本文详细介绍了这种方法的主要特点。云存储能够通过把基于对象的存储概念与RAIN概念结合在一起满足那些对于性能要求很低但是对于伸缩性要求极高的存储的需求。但是,同时,云存储还面临一些挑战,包括不断地检查数据是否损坏并且修复数据(自我修复)和可靠性(多少个数据副本能够提供规定的正常运行时间)。