DB5227∕T 112-2022 智慧黔南 数据质量评价规范(黔南布依族苗族自治州).pdf
《DB5227∕T 112-2022 智慧黔南 数据质量评价规范(黔南布依族苗族自治州).pdf》由会员分享,可在线阅读,更多相关《DB5227∕T 112-2022 智慧黔南 数据质量评价规范(黔南布依族苗族自治州).pdf(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、ICS35.240.01CCS L 705227黔南州地方标准DB 5227/T 1122022智慧黔南 数据质量评价规范Smart qiannan-Data quality evaluation standard2022-12-16 发布2023-04-01 实施黔南布依族苗族自治州市场监督管理局发 布DB 5227/T 1122022I目次前言.II1范围.12规范性引用文件.13术语和定义.14数据质量评价总体流程.25数据质量评价要求.35.1确定业务目标和要求.35.2剖析待评价数据.45.3明确数据质量评价指标.55.4设计质量校验规则.55.5配置质量校验规则.95.6评估数据质
2、量并输出报告.96整改问题数据.117数据共享开放工作流程.11附录 A(资料性)表级计算得分示例.12附录 B(资料性)部门级计算得分示例.13附录 C(资料性)数据质量报告样例.14C.1数据质量情况分析.14C.2数据质量得分及排名对比.14C.3数据异常响应问题变化趋势.15C.4问题数据整改建议.15附录 D(规范性)黔南州数据共享开放工作流程.17参考文献.18DB 5227/T 1122022II前言本文件按照GB/T 1.12020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任本文件由黔南州
3、大数据发展管理局提出。本文件由黔南州大数据发展管理局归口。本文件起草单位:黔南州大数据发展管理局、黔南州市场监督管理局、都匀市大数据发展服务中心、广西大学计算机与电子信息学院、黔南民族师范学院、北京东方国信科技股份有限公司、中国电信股份有限公司黔南分公司。本文件主要起草人:潘志刊、杨宗俊、颜家远、刘超、黄子吉、何晓慧、陈文涛、宋俊、李怡青、董婧、殷文辉、左为、韦广柱、刘峻、李明江、周锦程、张永丽、胡嘉斌、宋佳南、杨森、传洪波。DB 5227/T 11220221智慧黔南 数据质量评价规范1范围本文件规定了智慧黔南数据质量评价规范的全流程,包括数据质量评价总体流程、数据质量评价要求、整改问题数据
4、、数据共享开放工作流程。本文件适用于智慧黔南数据质量评价规范的具体实施工作,为各行业各部门评价数据质量提供参考。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 5271.1 信息技术词汇第1部分:基本术语GB/T 5271.17 信息技术词汇第17部分:数据库GB/T 36344 信息技术数据质量评价指标3术语和定义GB/T 5271、GB/T 36344界定的以及下列术语和定义适用于本文件。3.1数据关于数据或数据元素的数据(可能包
5、括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。来源:GB/T 5271.172010,17.06.053.2元数据关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。来源:GB/T 5271.172010,17.06.053.3数据质量在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。来源:GB/T 363442018,2.33.4原始数据终端用户所存储使用的各种未经过处理或简化的数据。来源:GB/T 363442018,2.4DB 5227/T 112202223.5数据集具有一定主题,可以标识并可以被计
6、算机化处理的数据集合。来源:GB/T 363442018,2.63.6数据质量校验对数据质量进行校对、核查的过程。3.7数据质量评价指以原始数据为基础,充分考虑数据之间的相关性、匹配性、逻辑性,采用科学方法对数据的规范性、完整性、准确性、一致性、时效性、可访问性进行判断和分析,对可能存在的数据质量问题进行追溯和核实,对数据进行确认的过程。3.8数据标准数据的命名、定义、结构和取值范围方面的规则和基准。来源:GB/T 363442018,2.83.9数据剖析用适当的统计、分析等方法对原始数据进行分析,对其特征加以汇总和理解,以求最大化地开发数据的功能,发挥数据的作用。4数据质量评价总体流程数据质
7、量评价流程可保证数据质量评价整个过程的有序及有效进行,具体流程如图1所示:DB 5227/T 11220223图 1数据质量评价流程5数据质量评价要求5.1确定业务目标和要求内容包括但不限于:项目的背景、计划和目标;数据存在的具体问题;问题数据的产生,例如流程、组织、技术等;DB 5227/T 11220224问题数据解决的优先次序。5.2剖析待评价数据内容包括但不限于:数据的元数据信息,例如数据名称、数据格式、数据类型、数据精度等。数据值的分布信息,例如主键唯一性、缺失值、取值范围、异常符号等。设定字段的级别,按业务重要性程度和数据问题的严重性程度对原始数据进行业务影响分级,分为一级、二级、
8、三级。三级级别最高,重要程度分类方式如下:三级:业务主键;二级:数值型、日期型、文本类表示的日期字段,短文本类字段(如名称、地址、代码、类型等特征字段),权威数据来源字段;DB 5227/T 11220225一级:空值率大于80%、其他类型字段,如:源业务系统字段、长文本描述类型字段。5.3明确数据质量评价指标数据质量评价指标划分为:完整性、一致性、准确性、合理性、唯一性与及时性六个维度。其中,完整性、一致性、准确性应符合GB/T 36344的规定。5.4设计质量校验规则5.4.1制定校验规则5.4.1.1概述根据质量评价指标制定12项质量校验规则,对数据质量进行计算、评分,质量评价指标和校验
9、规则的对应关系见表1。表 1质量评价指标对应的质量校验规则表序号质量评价指标质量校验规则1完整性字段完整性校验空值校验2记录数校验3参照校验-双向校验4一致性一致性校验5准确性值域校验6格式校验7参照校验-单向校验8合理性逻辑校验9波动性校验10关系校验11唯一性重复校验12及时性记录数校验5.4.1.2完整性DB 5227/T 11220226按照数据规则要求,数据元素被赋予数值的程度,包括数据元素的完整性和数据记录的完整性。对应的规则为:字段完整性校验、空值校验、记录数校验、参照校验-双向校验,完整性评价指标见表2。表 2完整性校验规则序号一级指标二级指标指标描述计算公式1完整性字段完整性
10、校验对业务表的字段完整性校验,检查字段个数和字段名称是否完整。X 1 AB 100%A=数据内容不符合字段完整性的数据记录条数B=数据记录总数2空值校验对非空字段检查填充率是否为100%,数据内容是否完整。X 1 AB 100%A=数据内容为空的数据记录条数B=数据记录总数3记录数校验通过当前校验表中的记录数是否在预先设定的范围内,来验证数据记录的完整性。记录条数在设定的范围内得满分 100,不在范围内得 0 分4参照校验-双向校验验证校验数据包含在参照数据中的程度,以及参照数据包含在验证数据中的程度,即检验校验数据和参照数据相互包含的程度。X 1 AB 100%A=数据内容与参照数据相互不包
11、含的数据记录条数B=数据记录总数注:X代表数据质量评价值5.4.1.3一致性数据与其他特定上下文中使用的数据无矛盾的程度,包括相同数据一致性和关联数据一致性。对应的规则为一致性校验,一致性评价指标见表3。表 3一致性校验规则序号一级指标二级指标指标描述计算公式1一致性一致性校验对分布在不同库表中的相同数据项进行一致性检查,包括对照原始数据和目标数据,检查在数据迁移过程中是否存在数据错误、丢失。一致性检查包括:单表单行校验、单表汇总校验、双表汇总校验和双表单行校验四种。单表单行校验:X 1 AB 100%A=校验列中与参照列中数据内容不一致的数据记录条数B=数据记录总数单表汇总校验:校验列数据汇
12、总值和参照列数据汇总值一致得满分100,不一致得0分双表汇总校验:校验表与参照表关联后校验列数据汇总值和参照列数据汇总值一致得满分100,不一致得0分双表单行校验:X 1 AB 100%A=校验表与参照表关联后校验列数据和参照列数DB 5227/T 11220227序号一级指标二级指标指标描述计算公式据内容不一致的数据记录条数B=数据记录总数注:X代表数据质量评价值5.4.1.4准确性数据准确性表示其所描述的真实实体(实际对象)真实值的程度,包括数据内容正确性、数据格式合规性、脏数据出现率。对应的规则为:值域校验、格式校验、参照校验-单向校验,准确性评价指标见表4。表 4准确性校验规则序号一级
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB5227T 112-2022 智慧黔南 数据质量评价规范黔南布依族苗族自治州 DB5227 112 2022 智慧 黔南 数据 质量 评价 规范 布依族 苗族自治州
限制150内