数据质量管理5要素数据质量报告.docx
数据质量管理5要素数据质量报告数据质量管理是一个长期的过程,除了选择合适的软件以外,制 订数据标准、规范流程同样重要。1 .建立数据的标准,明确数据的定义。通常,独立的应用系统会有一 个比拟模糊的、有时也会有比拟清晰的数据标准和数据定义。为了保 证系统的正常运行,这些系统的用户必须在数据的标准和数据的定义 上达成一致。不过,这些标准和定义大多数时候与企业中其他系统中 的数据标准和定义并不一致。因此,需要从整个企业的角度出发,建 立统一的数据标准和数据定义,同时,整个企业必须就这个数据标准 和数据定义达成共识。这一句话说起来容易做起来难。因为人通常本 能地会拒绝改变,改变数据标准和定义并不是轻而易举的。为此,强 烈建立在企业中除了设立一个高管级别的数据质量管理委员会外,还 需要选定一个执行能力强的工程负责人,需要他推动相关人员接受新 的数据标准和定义。在具体建立新的数据标准和数据定义时,需要仔细权衡,哪些定义和 标准是出于企业内部的原因(比方出于方便、习惯等)制订的,哪些 定义和标准是因为要有效反映外部的真实世界而制订的。相对而言, 前者更容易执行一些。2 .建立一个可重复的数据收集、数据修改和数据维护流程。数据管理 面临的两个主要挑战是企业本身的复杂性和身份信息不断变化。这两 特性归纳为数据的一致性、数据的准确性、数据的完整性、数据的及 时性4个关键特性。(1 一致性的量化评价指标:字段一致率、表间字段一致率、表间记录一 致率。(2准确性的量化评价指标:准确率、过失率a、问题字段个数、问题 记录覆盖率及时性的量化评价指标:采集工程及时率;单位入库及时率(4)完整性的量化评价指标:字段缺失数、缺失记录覆盖率、计划完成 率。3 .数据质量控制模型。数据质量控制模型以数据质量定义模型为基础,按照定义的检查范围 和时间以自动或手工方式完成对数据质量的检查工作。在质量控制过 程中违反了数据质量定义的,视为数据质量问题,数据质量问题直接 通过数据质量的关键特性和指标反映出来。数据质量控制模型的控制 内容表现在:对数据检查对象、数据检查频度、数据检查时间、数据检 查方式等方面进行控制。数据检查对象:是指根据采集计划设定需要检查的用户、专业数据 表、数据库实体。(2)数据检查频度;是指根据数据表的采集计划和实际发生的频度,设 定存储过程的检查执行频率。数据检查时间:是指根据每日生产应用的密集时间以及数据发生到 采集入库的密集时间,综合设定一个检查开始执行的时刻。(4)数据检查方式:是指执行检查过程的方式可以由后台过程自动控 制,每间隔2小时自动检查一次;也可以由人工干预手动检查,任意时 刻都可以执行检查(当然尽量选择数据库流量比拟低的时候)。4 .数据质量评价模型。数据质量评价模型,是以数据质量定义模型为依据,由数据质量控制 模型操控执行,根据反应的质量检查结果表,评议出数据质量的关键 指标,实现对数据质量的量化诊断和评价。数据质量分析评价模型功能核心是,通过对基础模型中的采集计划和质 量定义模型中的约束规那么的处理,由控制模型调用可以实现检查分析的 后台存储过程在实体库中执行检查,形成查询结果,再由分析程序进行 分析、计算、分类、汇总,生成反映采集计划完成情况和数据质量量化 指标的结果,存储到分析结果表中,从前台调用这个分析结果表,就可以 生成一份详尽的反映数据质量问题各类量化指标的数据质量分析评估 报告,展现所评估实体库的数据入库的及时率、数据上报的完整性、数 据采集的一致性、数据入库的准确率。5 .数据质量辅助管理模型 数据质量辅助管理包括报告模版管理、权限管理、数据库资源占用情 况等等。个客观原因的存在意味着企业的数据质量保证行动永远没有结束之 日,因此,企业在制订数据质量的保证措施和数据质量指标时,必须 保证这些措施和指标能够不断重复。3 .在数据转化流程中设立多个性能监控点。数据的质量高低可以根据 最终用户的需求来评价,也可以通过与同类数据源的比拟来评价,还 可以通过与前一阶段的数据质量进行比拟来评价。但在制订数据质量 的战略时,比拟理想的方法还是根据最终用户的需求来进行。不过这 里存在一个问题是,等到最终用户拿到数据时再针对数据的问题进行 修正已经太迟了。一个有效的数据质量保证方法是在每当数据发生转 换后就与前一时期进行比拟,从而对数据质量进行评估。如果此前所 采用的数据质量改进方法有助于提高最终用户的满意度,那么,这些 中间指标的达标也预示着工程的最终成功。4 .对流程不断进行改善和优化。我们常常听到有人说,他们制订了很 多方法来迅速而且大幅度提升数据的质量,但很少听说最后他们能真 正得到满意的结果(:数据质量管理5要素数据质量报告)。其原因就在 于数据的质量改进绝非一朝一夕的事情,而是一个持续的过程。正确 的方法是通过一个不断改进的流程,持续不断地排除错误、对数据进 行整合和标准化,最后到达流程的自动化,从而降低数据质量保证计 划的总体开销。实际上,排除错误、数据整合和数据标准化从来就不 是一件容易的事情。数据质量管理计划的负责人将配合公司高管组成 的数据质量管理委员会来保证这个流程的顺利执行。要注意的是,作 为该工程的负责人,不能墨守成规,仅仅因为自己以前一向采用某种 方法,就要求别人也必须采用这一方法,特别是当发现这些方法本钱 高昂的时候,就应该考虑换一种方式了。5 .把责任落实到人。通常,我们认为那些与数据的产生、维护相关的 人员是负责任的,但是,很有可能,他们有很多其他的工作要做,因 此作为数据质量的负责人光有善良的想法是难以提高数据的质量,很 有可能一辈子也达不到目标。对于那些负责数据的产生、数据的合理 化以及对数据进行清理和维护的人,应该给他们的活动制订明确的指 标,这样他们才能真正理解人们到底希望他们到达什么目标。更重要 的,他们还需要针对这些指标细化对他们自己的要求,当然,他们会 因为到达或者超过这些指标而得到奖励。其中,一个执行力强的负责 人的价值表达出来,他会针对具体情况适时调整数据质量的目标。最后,再次强调考虑与数据管理和数据质量的改进工程有关的人的因 素,他们的行为是非常重要的。从某种程度上说,要比具体选择什么 软件要重要得多。上述5点有助于帮助组织规范数据质量管理中与人 有关的流程。提高数据质量的三个步骤由于大多数系统和应用程序会持续不断接收到新数据,数据量也在不 断增加,因此确保数据质量并不是一次就能完成的。所有企业都应该 使用一种反复进行的阶段性过程来管理数据质量,此过程包括数据质 量评估、规划以及策略的选择和实施。第一步对数据质量进行评估。评估当前的数据质量状态是第一步。对 数据质量进行评估能帮助企业准确地了解数据的内容、质量和结构。 主管人员参与数据质量评估以及分析在数据检查过程中发现的问题对 于数据质量评估来说都很重要。在最有效的数据质量评估中,所有问 题都将按照对业务影响从大到小的顺序列出,这将帮助IT机构节省项 目本钱。第二步,制订数据质量计划。彻底了解企业数据的内容和质量后,接 下来的步骤是制订一个计划,来修改当前的错误并防止未来错误的发 生。有效的计划不但可以提高企业当前所有应用程序中数据的质量, 还将制定一些方式以确保新应用程序从一开始就遵循数据质量规那么。第三步,选择和实施数据质量策略。选择改善企业数据质量的策略, 要求决策者权衡每个数据质量计划的本钱以及该策略产生的影响。目 前的策略类型有两种:在企业输入数据时提高数据质量的方法称为“上 游”方法,而从运营系统提取数据的应用程序(如数据仓库)中改善 数据质量的方法是“下游”方法。上游策略研究当前应用程序的逻辑、数据和流程,解决检查过程中发 现的异常情况。此策略可能涉及到更改应用程序逻辑、添加更好的表 验证、改善与数据输入相关的流程,它致力于企业数据的高准确性。 另外,此策略还要求使用应用程序本身附带的数据质量功能。下游策略解决目标应用程序或数据仓库(而非数据源)中的数据质量 问题。由于数据可以根据需要随时进行修改,所以企业能够在流程(尤其是数据转换、名称和地址清洗以及查找验证)中改善数据质 量。下游策略仅为目标应用程序或数据仓库改善数据质量,但与上游 策略相比,它的实施过程更简单,本钱更低。一个战略性和系统性的方法能帮助企业正确研究企业的数据质量项 目,业务部门与IT部门的相关人员将各自具有明确角色和责任,配备 正确的技术和工具,以应对数据质量控制的挑战。数据质量反映的是数据的“适用性(fitnessforuse) ”,即数据满足 使用需要的合适程度。数据质量通过完整性、一致性、准确性、及时 性、合法性等多类维度对数据进行度量。数据质量管理的目的是为企 业提供洁净、结构清晰的数据,是企业开发业务系统、提供数据服 务、发挥数据价值的必要前提,是企业数据资产管理的前提。数据质量问题的影响因素1、数据质量方面原因一一数据不一致 企业早期没有进行统一规划设计,大局部信息系统是逐步迭代建设的,系统建设时间长短各异,各系统数据标准也不同。企业业务系统 更关注业务层面,各个业务系统均有不同的侧重点,各类数据的属性 信息设置和要求不统一。另外,由于各系统的相互独立使用,无法及 时同步更新相关信息等各种原因造成各系统间的数据不一致,严重影 响了各系统间的数据交互和统一识别,基础数据难以共享利用,数据 的深层价值也难以表达。2、数据质量方面原因一一数据不完整由于企业信息系统的孤立使用,各个业务系统或模块按照各自的需要 录入数据,没有统一的录入工具和数据出口,业务系统不需要的信息 就不录,造成同样的数据在不同的系统有不同的属性信息,数据完整 性无法得到保障(:数据质量管理5要素数据质量报告)。3、数据质量方面原因一一数据不合规没有统一的数据管理平台和数据源头,数据全生命周期管理不完整, 同时企业各信息系统的数据录入环节过于简单且手工参与较多,就数 据本身而言,缺少是否重复、合法、对错等校验环节,导致各个信息 系统的数据不够准确,格式混乱,各类数据难以集成和统一,没有质 量控制导致海量数据因质量过低而难以被利用,且没有相应的数据管 理流程。4、数据质量方面原因一一数据不可控 海量数据多头管理,缺少专门对数据管理进行监督和控制的组织。企 业各单位和部门关注数据的角度不一样,缺少一个组织从全局的视角 对数据进行管理,导致无法建立统一的数据管理标准、流程等,相应 的数据管理制度、方法等无法得到落实。同时,企业基础数据质量核 体系也尚未建立,无法保障一系列数据标准、规范、制度、流程得到 长效执行。5、数据质量方面原因一一数据冗余各个信息系统针对数据的标准规范不一、编码规那么不一、校验标准不 一,且局部业务系统针对数据的验证标准严重缺失,造成了企业顶层 视角的数据出现“一物多码”、“一码多物”等现象。数据治理中影响数据质量的5个因素.中琛魔方大数据平台表示数据将 是产生业务价值和实现业务目标的基石,数据质量将成为此类工程的 一个极为重要的因素,一些工程在早期没有考虑数据质量因素,导致 工程实施的后期阶段,因为数据质量问题造成工程失败的风险,所以 在工程的各个方面都应注意数据质量的管理。常见的数据质量问题包括数据无法匹配数据不可识别 数据不一致数据沉余重复 实效性不强精度不够通过数据分析、数据评估、数据清洗、数据监控、错误预警等内容, 解决数据质量问题,使数据的质量得以改善,使其满足数据需求方对 数据质量的规那么要求。数据质量评估包括但不止以下6个方面规范性Conformity:度量哪些数据未按统一格式存储。一致性Consistency:度量哪些数据的值在信息含义上是冲突的。准确性Accuracy:度量哪些数据和信息是不正确的,或者数据是超期 的。唯一性Uniqueness:度量哪些数据是重复数据或者数据的哪些属性是 重复的。关联性Integration:度量哪些关联的数据缺失或者未建立索引。数据质量评估模型要素分别为:基础模型、数据质量定义模型、数据质量控制模型、数据 质量评价模型、数据质量辅助模型。1 .基础模型。其他模型必须以基础模型中的计划和标准为依据。基础模型主要是映 射、定义数据采集标准,上载分单位的采集计划,同时纳入了约束规那么 定义规范、控制规那么定义规范、模板定义规范。数据标准:分两局部,一局部是直接映射应用中的标准,例如源数据库 标准;另一局部是针对新增应用库和工程库标准的定义规范,包括代码 定义标准、数据项定义标准(例如是取英文还是汉语拼音,取几个字 符)、值域定义标准等等新增表准的建立规范;采集计划:采集单位的每月上载的日度、月度、年度的采集计划;约束规那么定义规范:主要描述质量定义模型中的语法构成;控制规那么定义规范:针对服务器负载和采集表的及时性,要求建立的后 台执行过程的控制方式的使用说明;2 .数据质量定义模型。以基础模型为前提对数据质量的统一规范的定义,是数据质量分析评价 的依据和基础。数据质量定义模型可以使用质量特性描述。数据质量