2022年数据仓库拉链算法 .pdf
《2022年数据仓库拉链算法 .pdf》由会员分享,可在线阅读,更多相关《2022年数据仓库拉链算法 .pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据仓库之拉链算法(转)链:古代软兵器的中介之物,故名思意 .有着连接、衔接的意思.拉链算法是目前数据仓库领域比较 XX 的算法之一 .通用非常广 .记录数据量很大且为全量实体记录历史的操作。例如,某某移动通信公司客户资料,以河北为例,河北有客户2800W,客户资料每个一条就是 2800W 条记录算上历史客户,全量大概有5000W 条左右。作为数据仓库来存储这些信息几千万条记录不算什么。可是要是记录历史全量所用到的存储就非常的庞大。问题实例为:一般正常情况下,从河北移动的BOSS 系统上每天采集全量的日数据大概为2500W条,历史存储每天存储一个2500W 条的日表,存储三个月,就需要3*30
2、*2500W 条的数据存储空间,数据量为20E。这只是存储三个月的历史如果存储更长时间则无法估计需要的存储。而用拉链算法存储。每日只是向历史表(HIS)中添加新增和变化的数据量。每日不过数十 W 条。存储一年也就是需要5000W 条记录的存储空间即两个日全量的空间。下面详细介绍下拉链算法:1.采集当日全量存储到 ND ( NewDay)表中。(比正常的全量表多两个字段(START_DATE&END_DATE)2.可从历史表中取出昨日全量数据存储到 OD(OldDay)表中。(比正常的全量表多两个字段( START_DATE&END_DATE)3.用 NDOD 为当日新增和变化的数据(即每日增量
3、)。4.用 ODND 为状态到此结束需要封链的数据。5.历史表( HIS)比 ND 表和 OD 表多两个字段(START_DATE&END_DATE)6.针对第三部来讲,ND 和 OD 表的( START_DATE&END_DATE)分别记录当前日期和最大日期,取意为开始日期为当前天的数据和结束日期为最大日期。注意OD 和 ND 的START_DATE ND OD 两个表进行全字段比较但是(START_DATE&END_DATE)除外。将结果记录到 W_I 表中名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - -
4、 - - - - - 第 1 页,共 6 页 - - - - - - - - - OD ND 两个表进行全字段比较同样(START_DATE&END_DATE)除外。将结果记录到 W_U 表中7.将 W_I 表的内容全部插入到HIS 表中。8. 对历史表( HIS)和 OD 表比较对历史表最更新操作即在历史表(HIS)中数据进行更新操作以 W_U 表为准,即对历史表与W_U 比对( START_DATE&END_DATE除外),在历史表( HIS)中也在W_U 表中的数据将其END_DATE 改成当前天,说明该记录对当前天失效。9。取数据时候对日期进行条件选择即可如:取20080101 日的数
5、据条件部分为(where start-date20070801 ) 即可全部 SQL 为:(select * from table(his) where start-date20070801 ) 下面为具体例子:OD(在第一天就等于HIS) 用户标志 状态 开始时间结束时间1 1 200712 299901 2 2 200712 299901 3 3 200712 299901 4 4 200712 299901 5 5 200712 299901 ND 用户标志 状态 开始时间结束时间1 2 200801 299901 2 2 200801 299901 3 4 200801 299901
6、名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 6 页 - - - - - - - - - 4 4 200801 299901 5 6 200801 299901 W_I=ND-OD 用户标志 状态 开始时间结束时间1 2 200801 299901 3 4 200801 299901 5 6 200801 299901 W_U=OD-ND 用户标志 状态 开始时间结束时间1 1 200712 299901 3 3 200712 299901 5 5 200712 299
7、901 INSERT 操作 把 I 插入到 HIS 用户标志 状态 开始时间结束时间1 1 200712 299901 2 2 200712 299901 3 3 200712 299901 4 4 200712 299901 5 5 200712 299901 1 2 200801 299901 3 4 200801 299901 5 6 200801 299901 update 操作 按 U 更新 HIS 用户标志 状态 开始时间结束时间名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - -
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年数据仓库拉链算法 2022 数据仓库 拉链 算法
限制150内