数据血缘关系.pdf
《数据血缘关系.pdf》由会员分享,可在线阅读,更多相关《数据血缘关系.pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据治理 数据血缘关系 数据血缘是元数据产品的核心能力,但数据血缘是典型的看起来很美好但用起来门槛很高的技术,只要你采买过元数据产品就知道了。这篇文章对数据血缘的特征、价值、用途和方法做了系统阐述:1、特征:归属性、多源性、可追溯及层次性 2、价值:数据价值评估、数据质量评估及数据生命周期管理 3、用途:合规需求、影响分析和质量问题分析、数据安全和隐私、迁移项目及自服务分析 4、方法:自动解析、系统跟踪、机器学习方法及手工的收集 从数据血缘获得的方法看,自动解析基本是不靠谱的,机器学习方法还处于设想阶段,手工收集及时性,一致性很差,系统跟踪极大依赖于规范化管理能力和工具的集成能力,但却是我比较
2、认可的方法,要建立数据血缘一定要具体场景导向、小处着手,不要一下子想着搞个血缘全量,凡是理想化的做到最后大多做了个寂寞。正文开始 数据血缘关系,从概念来讲很好理解,即数据的全生命周期中,数据与数据之间会形成多种多样的关系,这些关系与人类的血缘关系类似,所以被称作数据的血缘关系。从技术角度来讲,数据 a 通过 ETL 处理生成了数据b,那么,我们会说,数据 a 与数据 b 具有血缘关系。不过与人类的血缘关系略有不同,数据血缘关系还具有一些个性化的特征。归属性 数据是被特定组织或个人拥有所有权的,拥有数据的组织或个人具备数据的使用权,实现营销、风险控制等目的。多源性 这个特性与人类的血缘关系有本质
3、上的差异,同一个数据可以有多个来源(即多个父亲),来源包括,数据是由多个数据加工生成,或者由多种加工方式或加工步骤生成。可追溯 数据的血缘关系体现了数据的全生命周期,从数据生成到废弃的整个过程,均可追溯。层次性 数据的血缘关系是具备层级关系的,就如同传统关系型数据库中,用户是级别最高的,之后依次是数据库、表、字段,他们自上而下,一个用户拥有多个数据库,一个数据库中存储着多张表,而一张表中有多个字段。它们有机地结合在一起,形成完整的数据血缘关系。如下图中某学校学生管理系统后台数据库的 ER图示例,学生的学号、姓名、性别、出生日期、年级、班级等字段组成了学生信息表,学生信息表、教师信息表、选课表之
4、间通过一个或多个关联字段组成了整个学生管理系统后台的数据库。不管是结构化数据,还是非结构化数据,都具有数据血缘关系,他们的血缘关系或简单直接,或错综复杂,都是可以通过科学的方法追溯的。以某银行财务指标为例,利息净收入的计算公式为利息收入减去利息支出,而利息收入又可以拆分为对客业务利息收入、资本市场业务利息收入和其他业务利息收入,对客业务利息收入又可以细分为信贷业务利息收入和其他业务利息收入,信贷业务利息收入还可以细分为多个业务条线和业务板块的利息收入。如此细分下去,一直可以从财务指标追溯到原始业务数据,如,客户加权平均贷款利率和新发放贷款余额。如果利息净收入指标发现数据质量问题,其根因可以通过
5、下图一目了然发现。数据血缘追溯不只体现在指标计算上,同样可以应用到数据集的血缘分析上。不管是数据字段、数据表,还是数据库,都有可能与其他数据集存在着血缘关系,分析血缘关系对数据质量提升有帮助的同时,对数据价值评估、数据质量评估以及后续对数据生命周期管理也有较大的帮助和提高。从数据价值评估角度来看,通过对数据血缘关系的梳理,我们不难发现,数据的拥有者和使用者,简单地来看,在数据拥有者较少且使用者(数据需求方)较多时,数据的价值较高。在数据流转中,对最终目标数据影响较大的数据源价值相对较高。同样,更新、变化频率较高的数据源,一般情况下,也在目标数据的计算、汇总中发挥着更高的作用,那可以判断为这部分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 血缘关系
限制150内