越来越多的业务需求都在传达一个信号,那就是用户对在他们的虚拟化环境中部署重复数据删除技术都表现出了强烈的兴趣,因为在虚拟化环境下,冗余的数据越来越多。
在这篇来自Taneja集团的高级分析师Jeff Boles的访谈记录中,我们可以了解到为什么越来越多的组织和企业对服务器虚拟化中的重复数据删除技术表现出了更多的兴趣,究竟虚拟化环境中更合适源端还是目的端的去重,我们用什么样的标准来决定何时对虚拟机进行去重处理,以及VMware公司的vStorage API接口为我们带来了什么。
问:据您所了解的,那些部署了服务器虚拟化的组织或企业,是不是越来越对重复数据删除技术感兴趣?如果是这样的话,您能详细解释一下在备份虚拟服务器时,有哪些因素及优势驱使他们倾向于选择去重技术吗?
答:是这样的。之所以有越来越多的用户对虚拟化环境下的重复数据删除技术感兴趣是因为在虚拟机环境下有太多的冗余数据占用了大量的空间。随着时间的推移,我们在如何部署虚拟化服务器方面已经变得越来越有经验。
我们已经完成了许多年前我们就应该已经完成的工作,在整体架构上带来的好处是,我们能更好的将核心操作系统数据和应用数据剥离开来。因此,我们今天看到的虚拟化环境都是严格遵照了最佳实践的,核心的操作系统镜像包含了大多数操作系统文件以及配置信息等。虚拟化环境能将这些文件和应用数据或者文件数据区分出来,一般来说,一台虚拟机后面,都会有许多有着类似的黄金镜像文件以及核心操作系统镜像文件。因此,在使用了重复数据删除后,用户将不再会为大量的冗余数据所困扰。如果用户选择在虚拟化资源池中使用重复数据删除技术,那么使用普通去重算法带来的去重率甚至高于非虚拟化环境中的生产环境。因此,仅从容量使用率的角度考虑,在服务器虚拟化环境中使用重复数据删除技术就会有着许多的优势。
问:针对这种应用,一般会选择使用哪种重复数据删除技术?您认为,究竟是源端去重还是目的端去重我们使用的更多一些,哪种优势更大?
答:如今不同的重复数据删除产品之间的确有着差异。用户可以根据自己的偏好,选择使用备份目的端的去重,比如介质服务器,或者选择使用备份源端的去重技术,源端去重的产品有Symantec公司的PureDisk、EMC公司的Avamar产品和其他一些专注于虚拟化环境的其他厂商的产品。
比起过去,如今源端重复数据删除技术越来越多的被采用,尤其在虚拟化环境中。首先在虚拟化环境中,I/O上的竞争不可避免,这是备份任务一开始就需要面对的问题。一般来说,当开始实施虚拟化的时候,其实备份的方式和物理机上一样,都是装上一个代理,然后将数据备份到外部介质服务器上,与之前在物理机上使用的是相同的备份方法。与在物理机上不同的是,用户不再需要为每一台机器的信息打包,他们需要关注的仅仅是包含所有虚拟机的物理设备,因此,实际上是将一整套的备份任务写进同一个硬件设备里。不管是使用WAN还是稍好些的LAN,用户都面临着I/O上的压力。然而实际上在物理硬件层的的I/O瓶颈是不能被忽视的。因此,传统的备份方式会让备份窗口拉的更长,甚至会影响到恢复时间目标(RTOs)和恢复点目标(RPOs),因为仅通过一个硬件设备上的I/O读写会更慢一些。
因此源端的重复数据删除技术上有着一些有意思的产品应用,它们可以在从虚拟机剥离前,将全部数据分成不重复的数据块。大量的这些使用源端去重的代理方法的出现,有力的推动了不断的变革。因为真正需要备份的数据越来越少,用户可以更为频繁的备份数据,并且在后台也一直在追踪着数据的变化。它们往往知道奥妙在哪里,因此它们可以将需要备份的数据量达到最小。
同样,在源端重复数据删除技术的帮助下,用户可以实现高度优化的针对虚拟化环境的备份效果。到最后真正需要被移动的数据少之又少,因此真正通过物理层链路的数据也是相当少的。从而就不再需要因为I/O上资源的争夺而大伤脑筋,长久下来就可以实现良好的RTOs和RPOs,且虚拟机备份的备份窗口也会更小。
问:在虚拟化环境下使用重复数据删除,会引起某些问题吗?用户应该注意什么?
答:当你在任何环境下,需要对基于客户端的环境进行备份的时候,往往会遇到大量数据备份的问题,在使用了重复数据删除技术后,备份窗口将不再是问题。另外一个在虚拟化环境下部署重复数据删除技术时需要考虑的问题就是大量的I/O请求都会被发送到同一个硬件设备上。用户随时可能在一台服务器上出现故障。然后用户需要做的仅仅是将数据流从去重目的端与源端备份数据剥离,再恢复回来即可。
“去重技术在帮助用户解决容量问题方面能起到很大的作用,然而,在恢复的过程中却不是唯一的方法或者出路。”
去重技术在帮助用户解决容量问题有着很大的帮助,然而却不是数据恢复时的好帮手。因为用户往往会对去重资源池有着大量的读操作。此外,恢复操作中往往会在许多不同的线程中产生不同磁盘上的操作。比如说,可能在一块硬件背后放置着20个或者40个的虚拟机,那么最后的结果很可能就是不能在相应的窗口完成恢复的操作。因为,我们通常建议客户使用多种不同的数据恢复方案来应对“丢失虚拟机”的情况。并且建议使用更多的主要数据保护措施,而并不是仅仅依赖于对备份的信任,可以尝试考虑使用快照的方式来节约数据恢复的时间。我相信没有人会希望保留30天的备份,但一定要确保能在遇到虚拟机损坏或者错误的更新后能有一个良好的回滚点。具体需要看遇到的情况是哪一种,相信没人会希望恢复的时间要将所有的数据都从备份数据库中拿出来,即使这对系统容量很有帮助。
问:去年,VMware公司发布了针对数据保护使用的vStorage API接口以及作为整个vSphere架构一部分的其他API接口。据您所了解,在当前的重复数据删除市场上,有没有什么产品使用这些API接口?
答:对于虚拟化环境来说,vStorage API的推出对该环境下的备份的帮助是显而易见的。在此之前,我们曾遇到过许多的麻烦,而现在一切都变得不一样了。虽说vStorage API有着适合所有类型环境的接口, 然而我觉得它在源端去重的使用上意义更为重大。vStorage API中最新颖的就是使用了变更数据块追踪(change block tracking, CBT),在此项功能的帮助下,用户能够知道在不同快照之间有哪些变化。之后,发明者就想到了在虚拟机环境中部署代理来实现虚拟机的备份。用户可以结合一些源端的技术再使用代理,从而实现在完成快照后能在虚拟机内部实现重复数据删除技术。值得注意的是,此项技术去重的部分仅仅是对最近一次快照之后产生变更的数据块。
一些有关vStorage API的技术着重于降低数据从虚拟化环境中导出的时间。现在,用户可以清晰地意识到在给定的时间点到现在,虚拟机上作出了哪些改动,此外,也可以将源端重复数据删除技术和主要的虚拟化环境的数据保护技术结合起来从而达到最佳结合。之前在代理的设置和使用上遇到的问题是,那时几乎在这个方面没有什么可以解决的方法。简而言之,用户先使用快照,然后用代理在即使有瓶颈的情况下将数据从虚拟化环境中剥离出来。
用户可以选择使用源端去重技术,不过在虚拟机环境下使用许多不同的运行方式。现在用户可以考虑使用vStorage API接口了。你可以通过使用快照技术再加上源端的去重技术快速地在虚拟机内部将重复数据剥离出来,还可以使用更为优化的源端去重技术,在代理的帮助下将快照挂载起来,然后对其进行去重再备份。vStorage API接口能够实现不同环境下的去重,并且能够将重复数据删除技术和虚拟化系统结合起来在其内部实现去重。如果用户感兴趣,还可以向厂商咨询一些市场上潜在的针对这些情况的解决方案,从而了解市场上的一些方法是如何通过在他们的产品中部署vStorage API接口来加速其虚拟机环境下的备份或者去重过程的。