2022年重复数据删除技术 .pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2022年重复数据删除技术 .pdf》由会员分享,可在线阅读,更多相关《2022年重复数据删除技术 .pdf(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、重复数据删除技术 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 44 页 - - - - - - - - - TT 存储技术专题之重复数据删除技术第 2 页 共 32 页重复数据删除技术当前,不管是权威机构,还是众厂商,都非常看好重复删除技术。重复数据删除通过有效地减少数据,消除备份成为降低数据存储成本的重要技术,成为大家关注的焦点。然而,重复数据删除是否可以在你的存储设备下工作?你如何在海量的数据中应用重复数据删除技术?本专题深入探讨重复数据删除技术,针对各种重复数据
2、删除产中提出评估建议。为什么需要重复数据删除?随着企业的数据量不断增长,大量的重复数据给存储带来严峻的挑战。重复数据删除带来了多种好处。存储量减少,从而降低了存储成本。这意味着只需更少的磁盘和更低频率的磁盘采购。更少的数据同时也意味着备份更小。?重复数据删除迅猛发展?如何通过重复数据删除降低存储成本什么是重复数据删除?重复数据删除,也被称为智能数据压缩或单一实例存储。它是一种可以减小数据存储需求的手段。本系列文章将介绍重复数据删除是如何工作的,重复数据删除技术的基本原则和具体实现等相关问题,并列举一些该技术在实际应用中的例子。名师资料总结 - - -精品资料欢迎下载 - - - - - - -
3、 - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 44 页 - - - - - - - - - TT 存储技术专题之重复数据删除技术第 3 页 共 32 页?重复数据删除是如何工作的??确保重复数据删除的高可用性?重复数据删除技术如何缓解存储需求重复数据删除有哪些产品?重复数据删除还是一个新的市场,不同的厂商为客户提供了不同的产品,这也使得实现重复数据删除的方式变得多样化,而客户面临的则是困难的抉择。让我们来看一下不同的重复数据删除产品及如何评估基于硬件的重复数据删除产品。?重复数据删除产品一览?如何评估基于硬件的重复数据删除产品?如何评估
4、基于软件的重复数据删除产品重复数据删除技术比较重复数据删除和其他技术有很多相似点和不同点,在这一系列中我们将深入探讨CAS和重复数据删除,讨论它们的用途并总结这两种技术的优缺点;介绍压缩、重复数据删除和加密的区别,比较和对照in-band(带内)和 out-of-band(带外)两种重复数据删除方式,以及它们各自存在的利弊。?CAS 和重复数据删除:归档双雄?压缩、重复数据删除和加密的区别?重复数据删除 in-band VS out-of-band 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - -
5、 - - 第 3 页,共 44 页 - - - - - - - - - TT 存储技术专题之重复数据删除技术第 4 页 共 32 页重复数据删除迅猛发展存储经理们已经意识到了重复数据删除技术的诸多优点。Federal Reserve 银行的存储架构师Michael Thomas在最近的“存储决策大会”上说:“如今我是不会购买一个不具有重复数据删除的二级存储设备的。”其原因,是显而易见的。最新的虚拟磁带库(VTL) 已经将重复数据删除技术作为一大特点包括在内,据称通过删除重复冗余的备份数据,在存储空间上可以为用户提供50:1的压缩比。所节省下的每GB 的成本是相当可观的。IDC.的分析师 Rob
6、ert Amatruda 认为,“随着重复删除的应用,现今VTL 的经济性已可以与磁带相比了,” GlassHouse Technologies 公司数据保护服务部的副总裁Curtis Preston估计,一个中端磁带库每GB 的成本估计在 4 美元到 11美元之间,而无压缩或无重复删除的磁盘每GB 的价格大约在 3美元到 11 美元,VTL 的供应商预测,对于保存期为一年的每周全面备份和保存期为十天的每日增量备份,要保证数据在其生命期内的存储,每TB 的数据将需要 53TB 的存储空间。随着存储容量以这种速度增长,任何能够节省这笔资金的方式都会受到用户的欢迎。重复删除产品的推出,可以帮助用户
7、遏制这种增长速度。主要的厂商包括:Data Domain、Diligent Technologies、ExaGrid、 FalconStor Software 、Network Appliance (NetApp)、NEC、Quantum(昆腾)、 Sepaton 和 Symantec (赛门铁克)。 EMC Corp.公司收购了 Avamar Technologies公司并计划在今年晚些时候将它的重复删除技术并入其备份部门。 HDS 与 Diligent Technologies公司、 IBM 公司和 NetApp 一起合作开发重复删除产品。Taneja Group.的创始人及咨询分析师Ar
8、un Taneja说:“重复数据删除的优点已经相当明显了。”但是,他认为,重复数据删除采用的不同方式和所得到的压缩非常模糊。他警告说,用户应该在自己的数据集下对产品进行彻底的测试。因为厂商更善于技巧性地实现这些数字,而不应该理所当然地就认同接受。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 44 页 - - - - - - - - - TT 存储技术专题之重复数据删除技术第 5 页 共 32 页摩托罗拉公司的IT 基础架构师 Guna Shankar Selvaraj
9、认为,他们对 Data Domain公司的进行了评估,但是他发现他们还处在“非常早期的阶段”。Federal Reserve 银行的 Thomas说,在决定购买哪种产品之前,他将用六到八个月的时间来测试所有的重复数据删除产品。他说“我想知道产品有多少拷贝的索引需要保存,以及如果它们被破坏后会发生什么所有的一切都是非常重要的。”UIC Medical Center 的企业存储架构师Richard Dearmon关注则是在重复删除之后的数据恢复问题。他说,“我想购买它,可我不清楚二级以及三级备份到底会发生什么。”普遍而言,用户们很想对该技术进行评估,却仍然有很多的问题。一部分公司则已经采取了行动。
10、CitiStreet 使用 Sepaton的 VTL 保存 50TB 的备份数据,该产品的重复数据删除技术,使其备份集得到了56:1 的压缩比。公司对该产品进行了两个月的测试,最终决定在六月底之前将数据转移到该产品上。起初是有一些挑战,但在Sepaton公司的帮助下 CitiStreet 最终扫平了这些障碍。“他们的重复删除产品对于用户来说就像一个黑匣子 -他们过来,打开一些开关,压缩了一些小文件。”不过,CitiStreet公司的全球基础架构副总裁Jeff Machols 表示,现在的运行广告说的一样了。随着数据的减少, CitiStreet 公司能够对数据进行更长期的保存,而不用担心磁带存
11、储问题。“为了备份和恢复,我们能够保持对有价值数据至少长达一年的在线存储。”Machols 说,“我们不必担心要把数据转移到其他的存储介质上。”不利的证据有一些证据可能会减慢重复删除的推广。用户关心重复删除、加密和压缩是如何以一种协调的方式共同工作的。摩托罗拉公司的Selvaraj说,“有些时候这些特点会导致自相矛盾.深入剖析你的数据,这一点是非常重要的,因为并不是所有的数据都能有效地进行重复删除。”由于越来越多的存储采用在线进行,另一个关心的话题就是电力消耗的问题。有一个用户告诉我们,最近由于电力消耗的问题,不得不关闭一些Data Domain公司的设备。不过,由于话题敏感,他要求隐去名字。
12、名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 44 页 - - - - - - - - - TT 存储技术专题之重复数据删除技术第 6 页 共 32 页该用户说,“产品的性能的确很棒然后我们主管设备的家伙走进来说,要不你把关掉什么,否则我只开始拔插头了我们没电了。” Data Domain公司的该产品是最后进入数据中心,最早从数据中心撤出的。“我们不得不重新使用磁带,以节省能量。”在目前阶段,还不清楚面临的能源危机会对存储经理们产生多大的影响。但根据最近一份 Gartn
13、er报告,这个问题似乎涉及到到IT 的所有部门。“到2008年,目前 50%的数据中心将不具备足够的电力和冷却能力来满足高密度设备的要求。”Gartner说,到 2009年,全世界 70%的数据中心将面临能源成本将为第二大运行成本的问题。(作者:Jo Maitland翻译:陈晶 来源:TT中国)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 44 页 - - - - - - - - - TT 存储技术专题之重复数据删除技术第 7 页 共 32 页通过重复数据删除降低存储成
14、本随着企业的数据量不断增长,大量的重复数据给存储带来严峻的挑战。举例来说:现在有一个大小为10M 的 PPT文件,要把它拷贝给100个用户,这就需要Exchange服务器有 1GB的可用存储空间。当每周都要备份1GB 的重复存储时,问题就会变得更加糟糕。一年后,浪费的1GB 空间最终会导致需要52GB 的磁带备份或其他方式的备份存储。近来新兴的重复数据删除正是为解决数据冗余问题应运而生的,它只将重复的文件、块或位存储到实际的存储介质中。重复数据删除带来了多种好处。存储量减少,从而降低了存储成本。这意味着只需更少的磁盘和更低频率的磁盘采购。更少的数据同时也意味着备份更小。这些都将转化为较少的备份
15、窗口占用时间和更快的恢复时间目标(RTO)。更小的备份也延长了在虚拟磁带库(VTL) 或虚拟档案库的保存时间。但是要使重复删除有效,数据必须被长期保存以便可以产生一个可供重复删除使用的全面索引只保存一周的数据对于重复删除来说是毫无意义的。重复删除的本质重复数据删除用以扫描数据中的重复内容,有时它也被称为智能压缩或单一实例存储。在最简单的层次,重复删除寻找同一文件的多种备份,不过,它只对相同的的数据进行处理,所以哪怕两个文件只有几比特数据的不同也会被其识别为两个不同的文件。如今的重复数据删除可以在更深的层次上寻找块或者位的重复实例,这使得它可以更好地节省存储空间。事实上,当数据向备份、档案文件或
16、者复制平台转移时,只有最初的数据实例会被保存到磁盘上。随后的实例会用小标号来简单地注明并指向已经保存的重复部分。每一块的重复数据删除都通过“散列算法”进行处理,例如MD5 或者 SHA-1,有时也会将二者同时使用。散列算法会为每一个数据块产生一个特定的散列值,并将它保存在索引中。当处理另一个数据块时,其散列值将与已经编入索引中的其他散列值进行比较。如果该值已经存在于索引中,新的数据块将会进行重复删除处理,不被保存。但会插入一个指向已存在数据的“标号”。专家指出重复数据删除的压缩比能够达到10:1到 50:1。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - -
17、- - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 44 页 - - - - - - - - - TT 存储技术专题之重复数据删除技术第 8 页 共 32 页重复数据删除的部署重复数据删除可以部署在硬件设备或软件产品中,而且每一种实施方式可能会有不同的实现形式,因为厂商都想在这个新兴的技术市场中与众不同。重复删除可以通过in-band(带内)实施,在数据写入存储时完成重复数据的删除。重复删除也可以通过out-of-band(带外)、作为独立或二级过程来实施。In-band处理效率较高,但处理速度可能会稍慢一些,因为额外的处理需要更多的存储时间,从而导致备份窗口
18、占用更久的时间。Out-of-band 处理不会影响系统的性能,但它需要略多一些的磁盘空间,并且在重复删除过程中可能引发磁盘冲突。专家建议,测试不同的重复删除方式,看这些方式是如何在你的现实环境中工作的。基于硬件的实施需要更多的成本,但它们的性能确实会更好一些,而且也更易于部署。硬件设备包括Data Domain公司适用于分支机构的DD410 以及 DDX 系列的门阵列,昆腾( Quantum)公司提供的 DXi3500 和 DXi550 。在选择哪种产品时,你必须确保这台设备与现有的备份软件是兼容的,并且确保它能够支持现有的存储容量(例如:需要能处理 20PB的容量 )。重复删除也可以直接嵌
19、入到存储产品中,例如:Diligent Technologies 公司的 ProtecTier VTL,ExaGrid Systems公司的网络附加存储 (NAS)备份设备,美国NEC 公司的 HydraStor grid 备分产品, Network Appliance(NetApp)公司的 NearSore R200和 FAS的存储系统,以及Sepaton公司的 S2100-ES2 VTL。基于软件的重复删除通常工作于备份服务器(源)而不是在备份目标 (存储系统 )。它可以减轻备份服务器和存储系统间的网络拥堵,并且通过广域网(WAN )进行备份工作,尤其得心应手。重复删除软件包括EMC 公司
20、的 Abamar产品和赛门铁克的NetBackup。基于软件的重复删除与硬件相比成本会低很多,但是对每个系统的代理使用都必须被备份对于 IT 公司来说这会增加管理和维护的负担。在考虑部署时,可扩展性是一个主要的关注问题。随着重复数据删除系统的不断扩展,存储性能将如何相应地改变,对这一点的理解是非常重要的。例如,极其巨大的散列索引表库可能会给系统性能造成负面的影响。当然,重复删除厂商都意识到了这个问题,并开始着手解决性能扩展的问题。 (作者:Stephen J. Bigelow翻译:陈晶 来源:TT中国)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - -
21、 - - - - - 名师精心整理 - - - - - - - 第 8 页,共 44 页 - - - - - - - - - TT 存储技术专题之重复数据删除技术第 9 页 共 32 页重复数据删除是如何工作的?重复数据删除,也被称为智能数据压缩或单一实例存储。它是一种可以减小数据存储需求的手段。重复数据删除的处理过程是通过删除冗余数据,确保实际上只有第一个单一实例数据被存储。而被删除的重复数据将由一个指向元数据的的指针所代替。重复数据删除可以对文件,块或者位进行操作。在基于文件的重复删除中,如果两个文件完全相同,那么其中一个将作为备份文件被保存,而随后重复的文件将获取指向保存文件的指针。但是
22、基于文件的重复删除并不十分有效,因为哪怕文件只是更改了一个字节,也会被作为另外一个不同的文件全部保存下来。基于块和位的重复删除,软件通过对文件进行比较,只保存每一块的单一重复部分。如果文件更新,那么只有被更改的数据才会被保存。这就是为什么基于块和位的重复删除要比文件级的重复删除要有效率的多。块和位重复删除所能达到的压缩比是从10:1到50:1。重复数据删除的处理方式每一个数据块通过散列算法(例如 MD5 或者 SHA-1)为每一个数据产生一个特定的散列值。将这个散列值与现有的散列值索引相比较,如果它已经存在于索引中,那么这个数据就是重复的,不需要进行存储。否则,这个新的散列值将被添加到索引中,
23、这个新的数据也因此被存储。要使重复删除平台处理更精确,就需要更大的索引。例如,基于文件的重复删除只需要一个百万大小或千万大小的单一散列值索引。相比之下基于块的重复删除会涉及到更多的单一数据块,这个数字通常会达到十亿级。这样精确的重复删除需要更强的处理能力以便可以为其提供更大的索引。除非硬件的设计与对索引的要求相适应,否则随索引的不断扩展,平台的性能将随之下降。一般而言,散列算法很少会将两个不同的数据块产生出相同的值。当这样的“散列碰撞”发生时,系统就不会存储新的数据,因为系统看到同一个散列值已经存在。这被称为名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - -
24、- - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 44 页 - - - - - - - - - TT 存储技术专题之重复数据删除技术第 10 页 共 32 页“false positive”(误报),会导致数据丢失。一些厂商结合不同的散列算法,以降低散列碰撞的可能性。另一些厂商还会检查元数据来确认数据,从而避免散列碰撞。其他方式的数据删除重复数据删除一般和其他的数据删除技术一起使用,例如压缩和差分delta。数据压缩技术已经问世约三十年之久,它将数学算法应用到数据中,以简化大容量或重复的文件部分。差分 delta通过只存储相对于原始备份文件被修改的部分,来减
25、小存储总量。例如:一个大约包含 200G数据的文件组,与原始备份相比可能只有50M 的数据是被修改过的,那么也只有这 50M 的数据会被存储起来。差分Delta 一般用于基于广域网的备份系统,它可以最大程度地利用带宽,从而减少备份窗口的工作时间。更快的备份速度和更短的恢复时间采用压缩比高达30:1的重复数据删除技术,300G的数据只需要 10G的磁盘空间。显而易见,这为我们节省了巨大的存储空间,因为我们不仅可以节省大量的磁盘空间,还可以延长磁盘的保存期。重复数据删除还可以带来一些间接的便利。较少的数据存储使备份的速度更快,从而减少了备份窗口的占用时间,同时也使恢复目标指针(RPOs)变得更小(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年重复数据删除技术 2022 重复 数据 删除 技术
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内