2022年重复数据删除技术解析 .pdf
《2022年重复数据删除技术解析 .pdf》由会员分享,可在线阅读,更多相关《2022年重复数据删除技术解析 .pdf(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 1 页 共 3 页中国计算机报/2007 年/7 月/2 日/第 C07 版专题重复数据删除技术解析中国传媒大学计算机学院朱立谷重复数据删除利用了文件之间和文件内的相同和相似性,处理的粒度可以是文件、数据块、字节甚至位。处理粒度越细,删除冗余数据越多,存储容量减少越多,同时消耗的计算资源也越多。文件相似性为了理解文件相似性对重复数据删除效率的重要性,首先要了解相似性与存储量之间的关系。数据的相似性变化范围极大,压缩效率变化范围也很大。使用不同版本的Linux 源代码来评估文件相似性,对gzip 压缩(文件内压缩)与Delta 压缩(文件内和文件间压缩)进行比较,结果如图1 所示。在8 万多
2、个文件(1GB 大小)中,有相当多的文件具有很高的相似性,而且有很多是完全相同的。gzip 压缩后,文件体积减少到原来的25%30%,而 Delta 压缩后,文件体积减少到原来的4%。这充分表明,利用文件相似性在文件内和文件间进行压缩有很多益处。通过对文件内和文件间的冗余数据进行删除,最后得到的数据再加上经过压缩计算产生的索引数据,其总量也只有原始数据量的1%。重复数据删除的算法1.Hash 算法Hash 一般翻译为散列,或音译为哈希,就是把任意长度的输入(称为预映射)通过Hash 算法变换成固定长度的输出,该输出就是Hash 值。这种转换是一种压缩映射,Hash 值的空间通常远小于输入的空间
3、。Hash 算法的数学表达式为CA=Hc(Content),其中 Hc()表示单向 Hash 函数,而 Content 代表任意长度字符串,CA 则代表固定长度Hash 值。Hash 算法在信息安全领域中被广泛应用,具有如下关键特性:第一,单向性(One Way),从预映射能够简单迅速地得到Hash 值,但在计算上不可能构造一个预映射,使Hash 的计算结果等于某个特定的Hash 值,即构造相应的Content=Hc-1(CA)不可行;第二,抗冲突性(Collision Resistant),即在统计上无法产生两个Hash 值相同的预映射,计算上也难以寻找到一对任意的Content 和 Con
4、tent,满足 HC(Content)=HC(Content),此谓强抗冲突性;第三,映射分布均匀性和差分分布均匀性。在Hash 结果中,为0 的位和为1 的位,其总数应该大致相等。输入中一个位发生变化,Hash 结果中将有一半以上的位发生改变,这又称为雪崩效应(Avalanche Effect)。MD5 和 SHA-1 是目前应用最广泛的Hash 算法。MD5(RFC 1321)是对输入以512 位分组,输出是 4 个 32 位字的级联。MD5 是比较安全的一种算法。SHA-1 可以产生长度为160 位的 Hash值,因此抗穷举(Brute Force)性更好。Hash 算法可以看作是一条管
5、道,文件内容从一端流入,文件或数据块的Hash 值就从另一端流出,如图2 所示。在存储领域中,Hash 算法首先被应用于内容寻址存储(Content Addressable Storage,CAS),其作用是在存储系统中惟一地表征特定的数据实体,称为内容地址(Content Address,CA)或数字指纹(Fingerprint)。在 CAS 中,可以通过Hash 实现一种独特的文件寻址与定位方法,并有效地消除文件复制。这可以说是重复数据删除技术的一个开端。不过,在重复数据删除技术中,一个文件可以计算一个Hash 值,也可以分成多个数据块,计算多个Hash 值。2.全文件 Hash 名师资料
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年重复数据删除技术解析 2022 重复 数据 删除 技术 解析
限制150内