DB23_T 3211-2022 “互联网+监管”系统大数据中心数据质量规范.docx
-
资源ID:96304482
资源大小:85.15KB
全文页数:7页
- 资源格式: DOCX
下载积分:5金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
DB23_T 3211-2022 “互联网+监管”系统大数据中心数据质量规范.docx
ICS 35.240.20CCS L 67DB23黑龙江省地方标准DB23/T 32112022“互联网+监管”系统大数据中心数据质量规范2022 - 05 - 09 发布2022 - 06 - 08 实施黑龙江省市场监督管理局发 布DB23/T 32112022前言本文件按照GB/T 1.1-2020给出的规则起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本文件由黑龙江省营商环境建设监督局提出并归口。本文件主要起草单位:黑龙江省营商环境建设监督局、黑龙江省政务大数据中心、黑龙江省标准化研究院、天阳宏业科技股份有限公司。本文件主要起草人:王艳、阚洪锦、姜虹、景艳馥、 彭雪松 、刘晓华、刘晨鑫、王增仁、赵成立、郑辉、陈要武、杨大志、吕猛、王磊、李严、王艳君、刘思妤、张敬。DB23/T 32112022“互联网+监管”系统大数据中心数据质量规范1 范围本文件规范了黑龙江省“互联网+监管”系统的数据汇聚过程中对数据质量要求与非标准数据的反馈流程。本文件适用于黑龙江省“互联网+监管”系统大数据中心的数据质量工作。2 规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。DB23/T 2832-2021 “互联网+监管”系统监管数据规范 第1部分:监管基础数据DB23/T 2833-2021 “互联网+监管”系统监管数据规范 第2部分:监管行为数据DB23/T 2834-2021 “互联网+监管”系统监管数据规范 第3部分:监管辅助数据3 术语和定义下列术语和定义适用于本文件。3.1“互联网+监管”系统大数据中心按照国家“互联网+监管”系统相关数据标准,汇聚本省监管数据,建设监管数据中心,形成各类监管数据库,建立数据动态更新机制,不断提高数据质量,满足数据上报、共享、分析等需要。3.2数据质量在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度,确保数据的及时性、完整性、准确性。3.3数据安全数据的安全性、完整性和可用性。4 数据质量4.1 目标与范围按照DB23/T 2832-2021、DB23/T 2833-2021和DB23/T 2834-2021的规定执行。对汇聚上报的数据进行抽取、清洗、去重、比对、校核、标准化转换、关联整合等处理并且依据治理规则进行数据治理,提升并入省“互联网+监管”系统大数据中心基础库的数据质量。1DB23/T 321120224.1.1 质量目标保证数据安全,实现数据资源在省“互联网+监管”系统的各应用系统应用以及在各市(地)的数据共享。4.1.2 数据范围从中省直部门、各市(地)汇聚的监管对象、监管行为、执法人员、信用信息、投诉举报、互联网及第三方机构数据、双随机一公开计划等监管相关数据。4.2 工作说明数据质量的主要工作是针对接入的数据启动数据治理,对于发现的数据质量问题,要启动错误数据反馈流程,协同中省直部门和各市(地)的数据源方共同处理。为了中省直部门、各市(地)上报的数据完整、可用,通过数据治理处理过的数据问题,能够自动并及时反馈给中省直部门、各市(地),中省直部门、各市(地)获取到数据质量报告后及时重新把相应数据完善再进行上报。4.3 工作流程4.3.1 工作流程图“互联网+监管”系统数据汇聚工作流程,见图1。图1 数据汇聚工作流程示意图4.3.2 数据采集入库2序号字段名中文名称数据格式必填项备注1cd_lsh自增流水号N20是自行插入2table_name数据表名C255是存在错误数据的数据表名3cd_id原数据主键编码C64是错误数据原来的主键编码(原值),方便各部门查询到原数据4org_code部门编码C50是数据来源部门编码5cd_source数据来源系统编码C64是数据来源的系统编码6cd_batch数据批次号C32是批次号7cd_time数据增量时间DateTime是错误数据入库时间8error_detail错误原因Text是错误数据描述信息9create_time错误数据治理时间DateTime是错误数据治理时间DB23/T 32112022汇入省“互联网+监管”系统大数据中心的数据,纳入数据治理的范畴。中省直部门、各市(地)通过省政务信息共享交换平台实现监管数据发布,省“互联网+监管”系统通过订阅获取监管数据,然后将中省直部门、各市(地)的监管数据加载进入省“互联网+监管”系统的汇聚库。4.3.3 数据质量核查监管数据进入监管数据汇聚库后,对每类数据配置治理规则,对于接入的数据,启动质量核查流程。将通过质量检核的监管数据进入大数据中心主题库和专题库,并将数据质量检核的过程及结果生成检核结果记录表留存至省“互联网+监管”系统上;对于质量检核未通过的错误数据进行标识并生成错误数据表,在汇聚库进行数据治理后的错误数据进入数据治理错误库。4.3.4 数据治理核查规则监管数据从监管数据汇聚库进入监管大数据专题库和主题库时,按照DB23/T 2832-2021、DB23/T2833-2021和DB23/T 2834-2021规定执行。4.3.5 错误数据反馈治理后的的错误数据标识针对中省直部门、各市(地)通过服务注册进行数据服务发布,由相应的中省直部门、各市(地)进行订阅。中省直部门、各市(地)订阅接收到该错误数据后,进行核对处理,并及时再汇聚上报正确的监管数据。4.3.6 错误数据订阅4.3.6.1 中省直部门、各市(地)都有一张对应的数据治理错误库表,在省政务信息共享平台订阅该数据资源目录,获取到错误数据反馈情况。监管数据治理错误表(见表 1)。生成需要治理的数据记录后,及时完成这些错误数据的修订并再次汇聚上报到省“互联网+监管”系统。表1 监管数据治理错误表省“互联网+监管”系统应每天统计数据治理错误库表,统计每天有多少条不符合治理规则的数据,按照数据来源系统、部门、数据增量时间分组将统计结果存入省“互联网+监管”市(地)工作进展情况统计表。不合格监管数据统计表(见表 2)。3序号字段名中文名称数据格式必填项备注1area_number区划编码C6是数据来源部门所属区划编码2area_name区划名称C150是数据来源部门所属区划名称3org_code部门编码C50是数据来源部门编码4org_name部门名称C150是数据来源部门名称5cd_ source数据来源系统编码C64是原数据中字段6invalid_count不合格数据条数N10是所有数据类型的不合格数据条数总和7cd_time数据增量时间DateTime是原数据中字段8statistic_time统计时间DateTime是此条数据生成时间DB23/T 32112022表2 不合格监管数据统计表4