欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    2022年重复数据删除技术解析 .pdf

    • 资源ID:42700111       资源大小:219.40KB        全文页数:3页
    • 资源格式: PDF        下载积分:4.3金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要4.3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2022年重复数据删除技术解析 .pdf

    第 1 页 共 3 页中国计算机报/2007 年/7 月/2 日/第 C07 版专题重复数据删除技术解析中国传媒大学计算机学院朱立谷重复数据删除利用了文件之间和文件内的相同和相似性,处理的粒度可以是文件、数据块、字节甚至位。处理粒度越细,删除冗余数据越多,存储容量减少越多,同时消耗的计算资源也越多。文件相似性为了理解文件相似性对重复数据删除效率的重要性,首先要了解相似性与存储量之间的关系。数据的相似性变化范围极大,压缩效率变化范围也很大。使用不同版本的Linux 源代码来评估文件相似性,对gzip 压缩(文件内压缩)与Delta 压缩(文件内和文件间压缩)进行比较,结果如图1 所示。在8 万多个文件(1GB 大小)中,有相当多的文件具有很高的相似性,而且有很多是完全相同的。gzip 压缩后,文件体积减少到原来的25%30%,而 Delta 压缩后,文件体积减少到原来的4%。这充分表明,利用文件相似性在文件内和文件间进行压缩有很多益处。通过对文件内和文件间的冗余数据进行删除,最后得到的数据再加上经过压缩计算产生的索引数据,其总量也只有原始数据量的1%。重复数据删除的算法1.Hash 算法Hash 一般翻译为散列,或音译为哈希,就是把任意长度的输入(称为预映射)通过Hash 算法变换成固定长度的输出,该输出就是Hash 值。这种转换是一种压缩映射,Hash 值的空间通常远小于输入的空间。Hash 算法的数学表达式为CA=Hc(Content),其中 Hc()表示单向 Hash 函数,而 Content 代表任意长度字符串,CA 则代表固定长度Hash 值。Hash 算法在信息安全领域中被广泛应用,具有如下关键特性:第一,单向性(One Way),从预映射能够简单迅速地得到Hash 值,但在计算上不可能构造一个预映射,使Hash 的计算结果等于某个特定的Hash 值,即构造相应的Content=Hc-1(CA)不可行;第二,抗冲突性(Collision Resistant),即在统计上无法产生两个Hash 值相同的预映射,计算上也难以寻找到一对任意的Content 和 Content,满足 HC(Content)=HC(Content),此谓强抗冲突性;第三,映射分布均匀性和差分分布均匀性。在Hash 结果中,为0 的位和为1 的位,其总数应该大致相等。输入中一个位发生变化,Hash 结果中将有一半以上的位发生改变,这又称为雪崩效应(Avalanche Effect)。MD5 和 SHA-1 是目前应用最广泛的Hash 算法。MD5(RFC 1321)是对输入以512 位分组,输出是 4 个 32 位字的级联。MD5 是比较安全的一种算法。SHA-1 可以产生长度为160 位的 Hash值,因此抗穷举(Brute Force)性更好。Hash 算法可以看作是一条管道,文件内容从一端流入,文件或数据块的Hash 值就从另一端流出,如图2 所示。在存储领域中,Hash 算法首先被应用于内容寻址存储(Content Addressable Storage,CAS),其作用是在存储系统中惟一地表征特定的数据实体,称为内容地址(Content Address,CA)或数字指纹(Fingerprint)。在 CAS 中,可以通过Hash 实现一种独特的文件寻址与定位方法,并有效地消除文件复制。这可以说是重复数据删除技术的一个开端。不过,在重复数据删除技术中,一个文件可以计算一个Hash 值,也可以分成多个数据块,计算多个Hash 值。2.全文件 Hash 名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 3 页 -第 2 页 共 3 页用整个文件进行Hash 计算,然后对不同文件的Hash 值进行排序,将相同的文件找出。这种方法的好处是,在普通硬件条件下,计算速度非常快。美国加州大学的研究表明,SHA-1 的计算速度是 83MB/s,而 MD5 的计算速度是227MB/s。利用上述算法对很多文件进行处理,能够检测到所有相同的文件,从而可以节省大量的存储空间。这种方法的主要缺点是,即使不同文件存在很多相同的数据,也不能被检测和实现冗余消除。3.文件分块Hash 文件分块Hash 类似于数据压缩技术。从本质上讲,数据压缩就是要消除信息冗余。早期的数据压缩技术就是编码优化压缩方式。对信息进行编码时,如果为出现概率较高的字符串赋予较短的编码,为出现概率较低的字符串赋予较长的编码,总的编码长度就能缩短不少。但是,统计文件中字符串出现的概率要耗费很长的计算时间,实际的操作方法是采用自适应编码方式,也就是在压缩的时候统计字符串出现的概率。如今,应用更多的数据压缩技术是字典型压缩算法。字典型压缩算法就是构造一本实际的字典,把每一个第一次出现的字符串放入字典中,并用一个数字来表示。这个数字与此字符串在字典中的位置有关,这个数字被存入压缩文件中。如果这个字符串再次出现时,即可用表示它的数字来代替,并将这个数字存入文件中,压缩完成后将串表丢弃。字典型压缩算法的压缩比例比编码优化压缩方式要高。另外,从压缩和解压的执行效率来看,字典型压缩算法也要优于编码优化压缩方式。字典型压缩算法的关键问题是,如何确定字符串的位置和字符串的长度。文件分块Hash 与字典型压缩算法非常相似。进行文件分块Hash 计算,首先要划分数据块,然后才能对数据块进行Hash 计算。最简单的划分块的方法是将数据块的大小固定。块的大小在一个规定的最小尺寸和最大尺寸范围之内。而可变大小的数据块可以用一个滑动的窗口来划分,当滑动窗口的Hash 值与一个基准值相匹配时,就创建一个分块。通常,基准值可以采用Rabin 指纹进行计算,并可通过设定块尺寸的上下限来减少块大小变化的范围。对数据块的存储类似于全文件Hash 的方式,相同的块用线性的块号进行标识。固定块尺寸可以减少对块划分算法的需求,但相同块的相似性检测将降低。分块Hash的缺点是,必须保存块的Hash索引,当没有冗余存在时,反而增加了不必要的开销。4.Delta 压缩Delta 压缩算法用于计算一个新文件和一个已经存储在系统中的参考文件之间的Delta 编码。当两文件间的相似性超过了预先设定的阀值时,就计算出一个Delta 编码,而且只须把这个Delta编码存储在系统里即可。在存储具有相似性的文件集时,使用Delta 编码进行文件压缩,可以极大地减少存储空间的占有率。Delta 压缩可分成以下四个步骤。第一,采用内容无关的方法从文件中选取特征集。一种选取特征集的方法是,沿着字节边界的滑动窗口计算整个文件的Rabin 指纹。滑动窗口的大小是一个预先选定的参数,产生的中间指纹数量与文件大小成正比。第二,在系统中找出一个与新文件具有高度相似性的参考文件。为了加快检测的速度,必须减少需要比较的指纹数量,具体方法是把特征集降为超级特征或超级指纹组成的更小数量的特征集合。选择固定数量的指纹作为特征子集,每个超级指纹是特征子集的一个Hash。如果一个或更多的超级指纹相匹配,意味着两个文件可能有极大的相似性。第三,对两个相似的文件计算Delta 编码。美国加州大学的研究结果表明:Delta 压缩的性能较差,在相同的硬件条件下,采用32 位的 Rabin 指纹,Delta 编码的处理速度为8.7MB/s。最后一步是存储压缩文件。重复数据删除算法的应用重复数据删除效率的高低与文件的相似性密切相关。重复数据删除技术并不要求所有资料都名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 3 页 -第 3 页 共 3 页采用某个独特的算法或方案。从具体实现方式来看,一般采用多种算法相结合的方式,逐步实现特征匹配。这一过程通常分为几个阶段,首先是匹配相同的文件,然后是高相似性的文件,最后是有某些相似的文件。因此,重复数据删除技术可使各种不同类型的数据受益。名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 3 页 -

    注意事项

    本文(2022年重复数据删除技术解析 .pdf)为本站会员(H****o)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开