2022年重复数据删除对数据归档的影响 .pdf
《2022年重复数据删除对数据归档的影响 .pdf》由会员分享,可在线阅读,更多相关《2022年重复数据删除对数据归档的影响 .pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、重复数据删除对数据归档的影响刘季哈尔滨理工大学测控技术与通信工程学院,哈尔滨(150040)E-mail :摘要: 重复数据删除是一种非常高级的数据缩减方式,可以极大的减少归档数据的数量。这种技术通过减少存储的数据量,改变数据保护方式, 卓越的提升了磁盘归档方式的经济性。重复数据删除被业界公认为归档技术的下一代发展步骤,是今日数据中心的“必备”技术。关键词: 重复数据删除存储冗余数据1.引言今日, IT 经理及管理员们不仅要面对日益爆炸的数据增长难题,还要担负由此引发的不断上升的归档及容灾所需的主存储的成本压力。然而, 每完成一次全归档,都会归档大量与之前的全归档相同的文件和数据,相同数据的多
2、个归档,占据了大量昂贵的磁盘空间。随着时间的推移,一次归档中的重复数据会充斥于所有服务器、所有归档工作( 全归档及增量归档 ) 。重复数据 删除是 一种非常高级 的数据 缩减方式 ,可以极 大的减少 归档数据的数量。 这种技术通过减少 存储的数据量, 改变 数据 保护方式 ,卓越 的提升了磁盘归档 方式 的经济性 。重复数据 删除被业界公认为归档 技术 的下一代发展步骤 ,是今日数据中 心的“必备”技术 。重复数据 删除应运 而生重复数据 删除是 一项非常新 的 技术 ,专门用 于在减少 需要归档的数据量、最大化存储 利用率 的同时, 使更 多的归档数据 在线保留更 长时间。 通常来讲 ,重复
3、数据 删除技术 会将最新的归档数据与 已有的之前的归档数据进行比 对,从而消除冗余 数据。这项技术 的优势在 于数据的 减少 不仅 使存储的 效率更高 、成本 更节约 ,带宽的利用也降到最低,使更 经济、更快速的实现 归档数据的 远程 复制成为可能 。然而,目前市场 中的重复数据 删除 解决方案还有很大差异 , 有 些解决 方案会 使归档 处理的 速 度变的很慢 ,甚至引发 无法预计且 不可恢复的数据 丢失。2.重复数据删除的发展方向2.1 块级重复数据删除多年以前的重复数据 删除技术 , 可以 看作是 文件级的技术,当时称之为“单一实例存储(Single Instance Store ,SI
4、S) ”,通过 SIS 技术 ,整个文件 系统或电子邮件系统 的重复文件可以被减少为 单 一的 拷贝 ,当再出 现这 一文件时, 会被指向到这 一单一拷贝 ,从而减少 容量需 求。这一技术通常被用 于电子邮 件管理及归档 系统 。今天的重复数据 删除技术利用 了与 SIS 类似 的数据 缩减概念 , 但却使之向前迈进了一大步 实现 了块级 (子文件 ) 重复数据 删除 。当读取 数据时, 系统 利用 Hash 算法识别唯 一的数据 块, 系统 将保留 Hash索引,每个 Hash编码指向 一个不同的数据块。当新的归档发 生时,会自动 的与 现有的 块进行比 对,如果索 引中 已经有相同的 块,
5、数据将会被删除 或被指向块 的名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 6 页 - - - - - - - - - 指针 所代替; 反之,则会被保 存 并在索引中 为其创建 一个 新的 Hash编码 。这里提到 的唯一数据块 的大 小, 会根据用户选择 的不同的重复数据删除 解决 方案而不同,平均 大小 在 4KB-24KB之间。与文件 级 SIS 技术 相比,块级的重复数据 删除技术可以说更具优势 。它可以在 不同的文件或 应用 中消除冗余 数据 块。比如,如果
6、一个文件 只做 了 想当小 的一 点修 改并保存,块级 重复数据 删除技术 则 将只保存发 生变化 的数据 块。按这种方式 ,块级重复数据 删除可以提 供 更好的压 缩比率 ,特别 是应用 于巨大数据量的 情况 下,如数据 库或全归档之 后。下面的 例子 进一步 说明了 SIS 和块 级两种重复数据 删除技术 的结果比较。一个 企业向 1000 个邮件地址 发出一封 带有注册内 容的 活动邀请函 , 传统的归档 应用将会把 文件归档1000 次。 SIS 解决 方案可以 识别出 文件 是相同的, 将只会保留 一份归档,然后生 成 999 个指针指向 那个唯一的归档,因 此,大概节省了 99.9
7、%的空间。但是, 之后这 1000个参 会人可能 会将 注册内 容填好后回 复给发件 人,由于 他们的 名字 不同, SIS 解决 方案就 会归档 1000 份回执 。块级解决 方案 在发出邀请函 的时 候执 行了相同的重复数据删除 处理,也实现 了 99.9%的存储空间 节省。但 是,当收到 1000 份参 会 人的回执 时, 块级解决 方案会发 现每个 回执 的大部分内 容与 第一封收 到的是相同的 并已经归档 过,因此,它只 会对 其它 999 封回执 的相 异 数据块( 块级) 进行 归档。 这种方 法与 SIS 技术 相比,则还可以节 省额外 的 99.9%的存储空间。2.2 绿色存
8、储与重复数据删除由于 块级重复数据 删除技术 只 保存发 生变化 的数据, 极大的 减少 了所需的归档容量,使用户 不用再像从前一 样购置 大量磁盘, 从而将用 户归档 系统 的总成本 降到最低 。更少 的磁盘致使 存储 系统 更少 ,电力及 制冷需 求更小,同时还 降低 了整体系统 的复 杂性。与传 统的磁 带归档 解决 方案相比,重复数据 删除技术 完全 改变 了磁盘归档的经济性 。通过这一技术 ,更多的 用户可以 负担 得起 用磁盘归档 取代整个 或是部分 磁带归档的 解决 方案。磁盘归档相对于磁 带归档 来说,提供了更好 的归档及 恢复 性能 。通过利用 磁盘归档的 方式 ,用 户可以
9、进 一步改 善他 们的服务 品质协议 (Service-Level Agreements,SLAs)。当通过 数据复 制实现 灾备时,重复数据 删除技术也可以带来卓越利益。由于 减少 了归档数据量, 重复数据 删除技术将 主站点与 远程 数据中 心 之间的 带宽 需求 、数据 传输 成本、复 制时间都 降到最低 。企业利用 相对经 济的 WAN 网络即 可在 任意地 理空间 范围内执 行复制,实现了额外 的成本 节约 。理论上讲,重复数据 删除技术可以用于任意地 点存 在的数据。 它可以 与在线 或是离线 的数据一 起工作 ,可以在 文件 系统或 是 数据 库,也可以在 其它 应用 。总的来说
10、,哪里有大量的重复数据, 它就能在 哪呈 现出最大的 利 益回报 。而最好的 应用 示例是在 企 业级 归档。 企业 大都是 每天做 一次全归档, 两日的全归档中通常 只有 很小 部分 - 不会 超过 5%- 的数据 是 不同的,大 部分 归档 扇区 都是相似的。据存储 工业 协 会调查 , 80%的归档 系统 中的数据需要保存 50 年以 上,同一个文件存在很多历史版 本, 某个版 本和 已归档的所有 版本之间一 般 只有 1%的数据不同。这种 情况 下,重复 删除为 归档 系统 带来 了最佳的利益回报 。2.3 集群式重复数据删除从性能 的角度看 ,只能提 供单 台重复数据 删除 服务器
11、/ 设备的解决 方案根 本无法 满足 每天需要归档成 百 TB数据 或 每天需要多次归档的大型企 业的需 求。据相 关组织 预测,EB级 的归档 系统 不会 离我 们太远了。在这种 情况 下,重复数据 删除 反而会 造成瓶颈 。一些企业考虑名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 6 页 - - - - - - - - - 用两台 或多台设 备 完成 这一工作 , 但由于每 台设 备都保留 了它自 己 的 Hash 索引, 设备根 本不能 鉴别出 重复的数据 是否已
12、经由 另一台设 备归档。这种方 法不仅会 影响 到重复数据 删除 的比率 ,还会增 加维 护的工作 量。单台重复数据 删除 服务器 / 设备也 会成 为单点 故障 。 如果 重复数据 删除 服务器 /设备发 生故障 ,所有的归档 工作 则都将失败,更糟 的情况 是造成恢 复过程 中的 失败 。尽管单台重复数据删除 服务器 / 设备在实 际 应用过程 中出现故障 的情况 非常 罕见 ,但这对企 业来 说还是一个潜在 的、 无法 接受 的风险 。其实,针对这个难题有一 种解决 办 法,就是重复数据 删除 集群 ,即利用 双工故障切换架构。在集群 的重复数据 删除 架构 中, 2或 4 台重复数据
13、删除 设备被 虚拟 化为 一台,为用 户 提供了 双倍 或四倍 的 吞吐 及处理能力。如果 他们中的 任意 一台出现故障 ,另 外的设备就会自动的接 管它的工作 负 荷,以确保处理的 连续 性。由于 集群仍 然保留 的 是单个的 Hash 表,因 此它不会 影响 到重复数据 删除比率 。以行业 知名的 美国飞康软 件公 司的 SIR 技术为 例,飞康 SIR 是应用 于业界 领先 的飞康VTL解决 方案的重复数据 删除技术 。飞康 SIR 可在 一个 性能 集群 中支持 4 个节点并 可应用 于所有的 飞康 VTL节 点,从而优化 了管理 能力和 扩展能 力。这 个集群架构 通过 统一性的添加
14、 节点, 使企业可以 扩 展到最 大容量 ( 最多 4 个节点,每个 节点 64TB,合计 256TB)和 速度( 每个节点 的重复数据 删除约为 300MB/秒,合计最大 1.2GB/ 秒) 。内置 的 N+1故障切换功 能,SIR重复数据 删除 引擎 是后处理方式 , 在不影响 恢复或归档 窗口 的情况 下减少 了存储成本。 此外,由于 SIR 解决 方 案基于飞康 历经验证 的 IPStor ? 技术 平台 ,包括 了它的虚拟 化和供给容量功能 ,因此, 用户 可以在 任意 时间 添加 存储而不 用中断 处理。3.根据需求选择重复数据删除方式目前市场 中的重复数据删除 解决 方案提供了多
15、 种删除 重复数据的 方式 , 如果想 找出最 适合用 户需求的方式 ,需要 考虑 两个 关键性因素:在 哪里进行 重复数据 删除 ( 源数据 端还是目标端 ); 在归档 处理的 哪个阶段 删除 重复数据 删除 ( 在归档 过程 还是归档之 后 )。3.1 源数据端一些重复数据 删除 产品在源数据 端工作 ,这意味着它们是位于主 机或应用 服务器上的。这种方式 要求为每一 台需要 进行 归档的 机器安装 重复数据 删除 系统 。 当数据 传送到归档 软 件之前 即识别 重复数据 并删除 。这种 重复数据 删除方式 具有如下优 点 : 数据 在网络传输 前就减少 了, 改善了传输 性能 ,节省了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年重复数据删除对数据归档的影响 2022 重复 数据 删除 归档 影响
限制150内