数据存储系统备份技术分析研究.pdf
数据存储系统备份技术分析研究 顾鹏 刘立刚 谢长生(华中科技大学计算机学院,武汉 430074)Research and Analysis of Data Storage System Backup Technologies Email: 摘要:数据存储安全的重要性逐渐为越来越多的人们所认可,数据备份的重要作用日益突显。本文着重研究了一些重要的数据备份技术,并对它们进行了分类,在分析其各自工作原理的基础上,对各种备份技术的关键之处和特点进行了深入讨论和分析。关键词:Storage System,Data Security,Backup Technologies 1 引言:数据存储的不安全性主要来自以下几个方面:病毒、非法操作、黑客攻击、内部人员故意破坏篡改、误操作、自然灾害等。据统计,硬件故障、软件错误、人的误操作是数据丢失的最主要原因。50%以上的数据丢失是由于硬件故障或软件错误造成的;30%以上的数据丢失是由人的错误操作造成的;病毒和自然灾害造成的数据丢失不到 15%。调查结果显示,具备计算机网络的公司有 2/3 遭遇过数据丢失的情况。在这种情形下,数据备份的作用已经越来越引起人们的重视。数据备份技术也逐渐成为人们研究的热点。2 备份技术分类:数据备份有多种实现形式,从不同的角度可以对备份进行不同的分类:从备份模式来看,可以分为物理备份和逻辑备份;从备份策略来看,可以分为完全备份、增量备份和差分备份;根据备份服务器在备份过程中是否可以接收用户响应和数据更新,又可以分为离线备份和在线备份,或称为冷备份和热备份。以下将逐一做详细介绍和分析:本文受国家自然科学基金项目(60173043)和 863 项目(项目号:2001AH111011)资助 (1)备份模式 主要有物理备份和逻辑备份两种备份模式。物理备份又称为“基于块(block-based)的备份”或“基于设备(device-based)的备份”。逻辑备份也可以称作“基于文件(file-based)的备份”。?逻辑备份 每个文件都是由不同的逻辑块组成的,每一个逻辑的文件块存储在连续的物理磁盘块上。但是,组成一个文件的不同逻辑块极有可能存储在分散的磁盘块上。比如 UNIX 系统,它使用了索引节点或“inode”结构来映射逻辑块地址和相应的磁盘上的物理地址。一个 inode 包含了指向物理磁盘块的指针。对于比较大的文件来说,一个单一的 inode 太小,无法映射所有的逻辑块,需要多个块的间接引用包含更多的指针。备份软件通常既可以进行文件操作又可以对磁盘块进行操作。基于文件的备份系统能够识别文件结构,并拷贝所有的文件和目录到备份资源上。这样的系统跨越了存储在每个 inode 上的指针,顺序的读取每个文件的物理块。然后备份软件连续的将文件写入到备份媒介上。这样的备份使得每个单独文件的恢复变得很快。但是,连续的存储文件会使得备份速度减慢,因为在对非连续存储在磁盘上的文件进行备份时需要额外的查找操作。这些额外的查找操作增加了磁盘的开销,降低了磁盘的吞吐率。基于文件的逻辑备份的另外一个缺点就是对于文件的一个很小的改变也需要将整个文件备份。?物理备份 与之相比,物理的或“基于设备的备份”系统在拷贝磁盘块到备份媒介上时忽略文件结构。这样会提高备份的性能,因为备份软件在执行过程中,花费在搜索操作上的开销很少。但是,这种方法使得文件的恢复变得复杂而且缓慢。因为文件并不是连续的存储在备份媒介上。为了允许文件恢复,基于设备的备份必须要收集文件和目录是如何在磁盘上组织的信息,才能使得备份媒介上的物理块与特定的文件相关联。因而,基于设备的备份适合于指定一个特定的文件系统来实现,并且不易移植。基于文件的方案则更易移植,因为备份文件包含的是连续文件。基于设备的备份方案的另外一个缺点是可能引入数据的不一致性。操作系统的核心一般会在写磁盘前对要写的数据进行缓存;基于设备的备份方案的特色就是跨越磁盘块,这样就会忽略文件缓存区中的数据,备份文件的较早版本。相对的,基于文件的备份方案考虑了文件的缓存区,备份了文件的当前版本。(2)备份策略 数据备份策略决定何时进行备份,备份收集何种数据,以及出现故障时进行恢复的方式。通常使用的备份方式有三种:?完全备份(full backup):完全备份是指对整个系统(如组成服务器的所有卷)或用户指定的所有文件数据进行一次全面的备份。这是最基本也是最简单的备份方式,这种备份方式的好处就是很直观,容易被人理解。如果在备份间隔期间出现数据丢失等问题,可以只使用一份备份文件快速的恢复所丢失的数据。但是它的不足之处也很明显:它需要备份所有的数据,并且每次备份的工作量也很大,需要大量的备份介质,如果完全备份进行的比较频繁,在备份文件中就有大量的数据是重复的。这些重复的数据占用了大量的磁带磁盘空间,这对用户来说就意味着增加成本。而且如果需要备份的数据量相当大,备份数据时进行读写操作所需的时间也会较长。因此这种备份不能进行得太频繁,只能每隔一段较长时间才进行一次完整的备份。但是这样一旦发生数据丢失,只能使用上一次的备份数据恢复到前次备份时数据状况,这期间内更新的数据就有可能丢失。?增量备份(incremental backup):增量备份为了解决上述完全备份的两个缺点,更快、更小的增量备份应时而出。增量备份只备份相对与上一次备份操作以来新创建或者更新过的数据。因为在特定的时间段内只有少量的文件发生改变,没有重复的备份数据,既节省了磁带空间,又缩短了备份的时间。因而这种备份方法比较经济,可以频繁的进行。典型的增量备份方案是在偶尔进行完全备份后,频繁的进行增量备份。但是在增量备份系统中,一旦发生数据丢失或文件误删除操作时,恢复工作会比较麻烦;因为恢复操作需要查询一系列的备份文件,从最后一次完全备份开始,将记录在一次或多次的增量备份中的改变应用到文件上,增量备份的恢复需要多份的备份文件才可以完成。在这种备份下,各盘磁带间的关系就像链子一样,一环套一环,其中任何一盘磁带出现了问题都会导致整条链子脱节。因此这种备份的可靠性也最差。增量备份技术又有几种变式,传统的方案是在偶尔进行完全备份后,频繁的进行增量备份;“完全备份增量备份”方式;或只是简单的“增量备份”。很多系统都包括增量备份方案的不同变式。“只有增量备份”的方案被用于IBMs ADSM,或者叫 ADSTAR 分布式存储管理器系统中,在这个系统中,完全备份被排除,文件只有当发生改变时才被写入到备份媒介上。UniTree并不执行传统的完全备份或增量备份,而是提供“连续的增量备份”。.文件在创建之初就被存储在磁盘的cache中,在一个很短的时期内,典型的时间是 3 分钟到 30 分钟,UniTree将最近创建的文件拷贝到存储层次的一级或者更低的层次上。这样,文件会被更迅速的保护而不再只是每日的增量备份保护,一个用户的文件在物理上不同的媒介上接近有 15份的拷贝。?差分备份(differential backup):差分备份即备份上一次完全备份后产生和更新的所有新的数据。它的主要目的是将完全恢复时涉及到的备份记录数量限制在 2 个,以简化恢复的复杂性。差分备份在避免了另外两种策略缺陷的同时,又具有了它们的优点。首先,它无需频繁的作完全备份,工作量小于完全备份,因此备份所需要时间短,并节省磁盘空间;其次,虽然每次做差分备份工作的任务比增量备份的工作量要大,但是它的灾难恢复相对简单。系统管理员只需要对两份备份文件进行恢复,即完全备份的文件和灾难发生前最近的一次差分备份文件,就可以将系统恢复。而在增量备份中,要顺序的进行从上次完全备份以来的每一次增量备份的恢复。增量备份和差分备份都能以比较经济的方式对系统进行备份,这两种方法的备份方法都是依赖于时间,或者是基于上一次备份(增量),或者基于上一次完全备份。表 1 对三种备份方案的特点进行了比较。表 1 备份策略的比较 完全备份 增量备份 差分备份 空间使用 最多 最少 少于完全备份 备份速度 最慢 最快 快于完全备份 恢复速度 最快 最慢 快于增量备份 (3)冷备与热备?冷备份 冷备份又叫离线备份,它是指当执行备份操作时,服务器将不接受来自用户和应用对数据的更新。离线备份很好的解决了备份选择进行时并发更新带来的数据不一致性问题,缺点是用户需要等待很长的时间,服务器将不能及时响应用户的需求。目前的新技术有 LAN-Free、Server-Free 等,这种方式的恢复时间比较长,但投资较少。?热备份 热备份也称在线备份,或数据复制,即同步数据备份,就是在用户和应用正在更新数据时,系统也可以进行备份。由于是同步备份,资源占用比较多,投资较大,但是它的恢复时间非常短。在热备份中有一个很大的问题就是数据有效性和完整性,如果备份过程中产生了数据不一致性,会导致数据的不可用。解决此问题的方法是对于一些总是处于打开状态的重要数据文件,备份系统可以采取文件的单独写/修改特权,保证在该文件备份期间其他应用不能对它进行更新。3 总结 数据备份的技术涉及面很广,本文着重从理论上研究了几种有代表性的备份技术,对其原理和特点做了细致的分析。让人们在选择备份系统的软硬件平台和备份策略之前,对可能用到的备份技术有一个清晰的了解和掌握。我们只有对备份技术有了充分的认识,才能够使我们的数据存储系统的安全得到最大程度的保护。参考文献:1周兴东等 数据管理和网络备份的设计 云南电力技术 2000 年 2Norman C.Hutchinson,Stephen Manley,Mike Federwisch et al.Logical vs.physical file system backup.OSDI New Orleans,Louisiana,February,1999.3NCSA.UniTree Mass Storage System Frequently Asked Questions.http:/consult.ncsa.uiuc.edu/docs/unitree 通讯地址:武汉 74880005 信箱 顾鹏 邮编:430074 电话:13986103868