《电子技术应用》
您所在的位置:首页 > 通信与网络 > 设计应用 > 持续数据保护技术
持续数据保护技术
中兴通讯技术——2010年
刘建毅
摘要: 随着数据信息重要性的不断提高以及数据量的不断增长,数据可用性变得比以往任何时候都更加重要。传统数据保护技术的恢复时间目标和恢复点目标已无法满足数据保护的需求。持续数据保护技术是对传统数据保护技术的一个重大突破,是数据保护技术的发展趋势。持续数据保护技术可以捕获或跟踪数据的变化,并将数据恢复到任意时间点。
Abstract:
Key words :

 

英文摘要:As the importance of data increases, and transmission of data quickens, data availability becomes a more critical issue. Recovery Time Objective (RTO) and Recovery Point Objective (RPO) of current protection technologies are insufficient in meeting data protection requirements. Continuous data protection represents a major breakthrough—it can capture and monitor data changes, and recover data to any point in time.

英文关键字:data protection; continuous data protection; backup; snapshot

基金项目:中央高校基本科研业务费专项资金(2009RC0217)

在数据信息日益重要的今天,构建完善的数据保护系统成为研究的热点。随着企业对数据安全性以及业务连续性的要求越来越高,传统上常用的数据复制、备份、恢复等数据保护技术[1-3]逐渐难以保证灵活的目标恢复点及较快的目标恢复时间。持续数据保护(CDP)技术的产生解决了这一难题。CDP保存所有的数据改变操作,能够将数据恢复到丢失前的任意历史状态。作为数据保护的一种高级形式,CDP技术已经成为存储行业关注的焦点。

全球网络存储工业协会(SNIA)数据保护论坛(DMF)的持续数据保护特别兴趣小组(CDP SIG)对持续数据保护的定义是:持续数据保护是一套方法,它可以捕获或跟踪数据的变化,并将其在生产数据之外独立存放,以确保数据可以恢复到过去的任意时间点。持续数据保护系统可以基于块、文件或应用实现,可以为恢复对象提供足够细的恢复粒度,实现几乎无限多的恢复时间点[4]。

持续数据保护技术的关键词是“持续”,其主要功能是在故障瞬发生的瞬间完成对数据的快速恢复,保证业务的连续性。因此,能够从根本上解决传统备份中恢复能力低和非精确时间策略(如按照天的备份)的先天弱点。就给定的数据集而言,持续数据保护提供连续的恢复点,能够存取任何时间点上的数据,允许应用恢复到任意的时间点之前,而不仅仅针对那些由备份流程预先确定的特殊时刻,且恢复点可在事件发生后选定并动态重建。因此持续数据保护能够提供无限密集的恢复点,有些情况下可以提供接近即时的恢复[5]。
持续数据保护并不是一项全新的数据保护技术,它是建立在传统数据保护、容灾技术基础之上的一套方法。和传统的数据备份和恢复技术相比,持续数据保护在几个方面有明显的特点[6]:

保护连续性
  更小的恢复点目标(RPO)
  更小的恢复时间目标(RPO)

传统的数据保护解决方案专注于数据的周期性备份,因此无法避免存在备份窗口、难以确保数据一致性以及会影响生产系统等问题。图1所示为CDP与传统数据保护在保护时间间隔上的比较。由图1可以看出,备份技术实现的数据保护间隔一般为24小时,因此用户会面临丢失多达24小时所产生的数据的风险。采用快照技术可以将数据的风险丢失量降低到几个小时之内。数据复制技术可以通过与生产数据的同步来获得数据的最新状态,但却无法防止由人为的逻辑错误或病毒攻击所造成的数据丢失。而持续数据保护是一种精细化多点跟踪技术,会不断监测关键数据的变化,捕获和保护数据中所有的变化,而非仅仅是某个预先选定的时间点,能将数据风险丢失量降低到几秒。

1 持续数据保护技术的实现

1.1 持续数据保护关键技术

持续数据保护实现的关键技术是对数据变化的记录和保存,以便实现任意时间点的快速恢复。一般来讲,有3种实现方式。

(1)基准参考数据模式

基准参考数据模式如图2所示。基准参考数据模式是一种After Imaging的策略,对要保护的数据建立一个初始的映像,然后将其日志按数据请求到来的顺序记录。这种策略中每次数据请求最多只导致一次对磁盘的实际写操作,因此实现简单,带来的额外开销较小。基准参考数据模式在数据恢复时,需要从最原始的参考数据开始,逐步进行数据恢复,恢复点越靠近当前点,恢复所需要的时间就越长。

 

 

(2)复制参考数据模式

复制参考数据模式如图3所示。复制参考数据模式是一种Before Imaging的策略,它维护的映像是数据的最新状态,因此它克服了基准参考数据模式中数据读效率低的缺点,适合于读请求较多的环境。复制参考数据模式通常利用Copy on Write技术,即映像中的原始数据被覆写之前先将其拷贝到日志中。这样记录的日志在恢复点越靠近当前点时所需时间越短,但一次写操作能引发两次写操作,因此,需要较多的系统资源。

(3)合成参考数据模式

合成参考数据模式如图4所示。合成参考数据模式是以上两种模式的折衷,较好地实现了以上两种模式的妥协,因此可以得到较好的资源占用和恢复时间效果。但需要复杂的软件管理和数据处理功能,实现起来比较复杂。

1.2 持续数据保护实现层次

CDP技术或解决方案可以在不同的层次实现,参考SNIA的存储共享模型,可以将当前实现CDP的产品或解决方案分为3类:

基于应用的持续数据保护
基于文件的数据保护
基于数据块的持续数据保护

(1)数据块级持续数据保护技术

数据块级的持续数据保护技术可以直接在物理的存储设备上运行,也可以在数据块传输层上运行。当发生数据块写入操作时,持续数据保护功能模块可以将原始的数据复制并传送到另外一个存储设备中进行存储。数据块级的持续数据保护需要将所有更改过的数据块按时间顺序保存下来[7]。每次写操作都会生成带有时间标记的数据块副本。由于每次数据写操作都被完整的记录保存下来,因此数据块级的持续数据保护技术能够动态地访问历史任意一个时间点的数据。数据块级的持续数据保护技术的最大优点是与应用的相关性比较小(因为运作在块设备层,与文件系统、应用无关),性能以及效率都比较高(特别是对于数据库这类直接访问块设备的应用)。其缺点是对备份存储空间的要求比较高,同时对于数据一致性的处理也缺乏通用有效的机制。

数据块级持续数据保护技术又有基于主机、基于传输层和基于存储层3类实现方式。

(a)基于主机端卷管理软件或客户端代理软件Agent实现

目前常见的主机端卷管理软件有VeritasVxVM、LinuxLVM、Microsoft动态磁盘等,也有厂商针对Linux和Windows平台开发了客户端代理软件Agent。它们的功能是通过卷镜像的方式获取生产数据的动态副本,并以此副本为基准进行数据持续保护。Symantec Storage Foundation、Falcon StorCDP、浪潮CDP属于此类。

(b)基于传输层实现

该方式通过含有DataSplitter功能的FCSAN交换机来获取同写入生产卷相同的I/O数据块,FCSAN交换机有BrocadeAP-7420B、CISCOMDS9000配置SANTAPSSM模块等,价格比较高。EMCRecoverpoint、LSIStoragAge等属于这种方式。

(c)基于存储层实现

某些厂商的存储阵列本身支持WriteSplitter功能,比如EMCClariiON磁盘阵列,这种实现方式比较受限于厂商。

(2)文件级持续数据保护技术

文件级的持续数据保护技术工作在文件系统之上。它可以跟踪文件系统中文件数据或者元数据的改变,及时备份这些变动信息并记录发生改变的时间,以便将来能够实现文件历史任意时间点的恢复。

目前根据持续数据保护思想在文件系统级进行相关研究的公司不多,主要包括:Symantec的Continuous Protection Server[8]、XOsoft的XOsoft Engine[9]、IBM的Tivoli Continuous Data Protection for Files[10]、Storactive公司的LiveBackup for Desktop/Laptops、TimeSpring公司的TimeData等产品。

(3)应用级持续数据保护技术

实现应用级持续数据保护技术时,需要在受保护的应用程序中直接插入和运行持续数据保护功能程序代码。持续数据保护程序代码可以由应用程序开发商将其直接嵌入在软件产品中,也可以由应用程序软件开发商提供相关的应用程序接口(API),然后由第三方持续数据保护软件开发商来完成持续数据保护的功能[11]。在应用程序中实现持续数据保护的最大优势是与能和应用程序无缝整合,确保应用程序的数据在持续保护过程中的一致性,同时管理也比较灵活,用户容易部署和实施。目前在应用程序级实现的连续数据保护解决方案大多是针对成熟的应用开发的。已经有一些公司的持续数据保护软件可以支持微软公司的Office、Exchange,IBM公司的DBZ,以及Oracle公司的数据库等。

 

 

对于以上3种类别的持续数据保护技术,数据块级和文件级的持续数据保护技术是一种通用方法,可以支持多种不同应用。而应用级的持续数据保护技术则只为某种特定应用提供连续数据保护能力,其通常的表现形式是与应用程序的一种更为深入的集成。

2 持续数据保护技术的应用

对于持续数据保护的应用范围,目前大体可以归纳为3类:

(1)为数据中心内的文件服务器/网络附属存储提供普通的数据保护

在这种应用中,持续数据保护逐渐取代了以前那种夜间的磁盘或磁带备份任务。虽然,有些人认为持续数据保护只是为那些关键的数据而准备的,但是我们发现有些持续数据保护产品要比那些传统的备份方法更加易于使用,并且效果也更好。因此完全可以用于普通的文件服务器的备份。

(2)为远程的分支机构进行集中化的备份

将持续数据保护用于远程分支机构备份应用的最大好处就是避免了远距离转移磁带介质的风险。我们使用同总部一样的复制技术将分支机构的备份数据同步传输回来;同时集中化的控制也可以让异地之间的数据安全管理工作变得更加主动、高效。

(3)帮助实现笔记本电脑上的数据备份
    也许人们曾经使用过很多方法来保护笔记本电脑上的数据,但都收效甚微。如今,人们可以使用持续数据保护来将数据的变化统统保留在笔记本电脑自带的硬盘上,然后在连接办公室网络的时候,自动地将它们发送到远端的中心服务器。不过,从技术定义上讲,这并不能称为持续数据保护。因为这类产品只有在笔记本电脑与网络连接的时候,才能上传改变的数据。不过,像IBM Tivoli CDP这样的产品,即使在没有连接网络的情况下,依然可以很好地对数据进行保护。

最后一点要说的是CDP并不是对所有企业都很适合。CDP技术本身并不难使用,但却非常昂贵。CDP采用基本的数据保护技术,因此CDP适用于那些对数据备份窗口以及RPO忽略的公司,那些处理非常繁忙的网络事务的公司也非常适合。而不做这些事务的企业则可以找到更加适合于它们的磁盘备份技术,比如虚拟磁带库(VTL)以及快照技术。

3 结束语

尽管CDP技术在数据保护和灾难恢复中具有很多特点和优势,但在实际应用中并没有真正达到普及。一是用户对数据备份的认识存在误区。比如,一些用户不清楚快照和备份间的差异,认为快照可以代替备份。实际则不然,快照的目的是为了恢复数据,而备份的目的不只是恢复,还有一个更重要的功能是存档,以满足法规遵从方面的要求。如果用户不能理解这些区别,在接受CDP时就会有所疑虑。二是CDP产品缺乏国家标准和行业标准,不明确什么是真正的CDP以及CDP到底能做什么。在众多存储厂商的产品线中,CDP并不是主流产品,各厂家之间的差异性非常大,有的是硬件,有的是软件,造成CDP产品鱼龙混杂,直接影响了CDP的推广和应用。

我们相信随着持续数据保护技术的应用范围的扩大和人们认知的深入,会有越来越多的真持续数据保护解决方案和产品出现。在实现持续数据保护的需求上,用户将会有更多的选择。持续数据保护技术也将会作为在线数据的重要保护手段而独立开辟一条通道,成为一种新的贴近用户目标的高级数据保护方式。

4 参考文献
[1] ROCK M, PORESKY P. Shorten Your Backup Window [J]. Storage, 2005, Special Issue on Managing the Information That Drives the Enterprise: 28-34.
[2] DUZY G. Match Snaps to Apps [J]. Storage, 2005, Special Issue on Managing the Information That Drives the Enterprise: 46-52.
[3] CHERVENAK A L, VELLANKI V, KURMAS Z. Protecting File Systems: A Survey of Backup Techniques [C]//Proceedings of the 6th NASA Conference on Mass Storage Systems and Technologies/15th IEEE Symposium on Mass Storage Systems, Mar 23-26,1998, College Park, MD,USA. Los Alamitos: IEEE Computer Society,1998:1-15.
[4] SNIA Data Management [EB/OL]. [2010-03-16]. http://www.snia.org/forums/dmf/programs/data_protect_init/cdp.
[5] 王树鹏, 云晓春, 郭莉. 连续数据保护(CDP)技术的发展综述 [J]. 信息技术快报, 2008, 6(6):24-33.
[6] PIETROFORTE M. Introduction to Continuous Data Protection [EB/OL]. [2010-05-26]. http://4sysops.com/archives/introduction-to-continuous-data-protection.
[7] DAMOULAKIS J. Time to Say Goodbye to Backup? [J]. Storage, 2006, 4(9):64-66.
[8] Symantec Continuous Protection Server [EB/OL]. [2010-03-19]. http://www.symantec.com/.
[9] Business and IT Requirements for Continuous Data Protection [R]. White Paper. Waltham, MA,USA: XOsoft Corporation, 2004.
[10] IBM Tivoli Continuous Data Protection for Files [EB/OL]. [2010-02-06]. http://www.ibm.com/software/tivoli/products/continuous-data-protection.
[11] Enterprise Rewinder: Product Suite for Continuous Data Protection (CDP) [EB/OL]. [2010-02-21]. http://www.xosoft.com/.
  
刘建毅,北京邮电大学信息安全中心副教授、博士;主要研究领域为灾难备份、信息内容安全;已主持和参加国家级基金项目10余项,获1项科研成果奖;已发表论文40多篇,其中被SCI/EI检索20余篇。

此内容为AET网站原创,未经授权禁止转载。