DB5120_T 19.3-2023 数据资源体系技术指南 第3部分:数据清洗加工规范.docx
《DB5120_T 19.3-2023 数据资源体系技术指南 第3部分:数据清洗加工规范.docx》由会员分享,可在线阅读,更多相关《DB5120_T 19.3-2023 数据资源体系技术指南 第3部分:数据清洗加工规范.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、ICS35.040CCSL71DB5120四川省(资阳市)地方标准DB5120/T19.32023数据资源体系技术指南第3部分:数据清洗加工规范2023-12-22发布2023-12-29实施资阳市市场监督管理局发布DB5120/T19.32023目次前言.II1范围.12规范性引用文件.13术语和定义.14缩略语.15清洗目的.26管理职责.27清洗流程.28具体操作.2附录A(规范性)典型业务数据清洗规则表.7参考文献.8IDB5120/T19.32023前言本文件按照GB/T1.12020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利,本
2、文件的发布机构不承担识别这些专利的责任。本文件由资阳市政务服务和大数据管理局提出并归口。本文件由资阳市市场监督管理局批准并发布。本文件起草单位:资阳市大数据服务中心、资阳数智科技有限公司。本文件主要起草人:刘桄序、戢培全、邵柏华、袁嘉、刘光乾、杨建康、张亚琴、李爱民、刘西北、郑雪梅、邓森林、彭国林、陈杜宇、杨通、李强、夏荣、张润泽、任良华、冷耀、陈熙。本文件为首次发布。IIDB5120/T19.32023数据资源体系技术指南第3部分:数据清洗加工规范1范围本文件规定了资阳市域数据清洗加工相关术语和定义、缩略语、清洗目的、管理职责、清洗流程、具体操作等工作规范。本文件适用于资阳市域政务组织、非政
3、务组织和个人信息资源数据清洗加工。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T5271.1信息技术词汇第1部份:基本术语GB/T11457信息技术软件工程术语GB/T18492信息技术系统及软件完整性级别GB/T22032系统工程系统生存周期过程GB/T25000系统与软件工程(所有部分)GB/T29264信息技术服务分类与代码GB/T35295信息技术大数据术语GB/T36625.3智慧城市数据融合第3部分:数据采集规范GB/T3
4、8667信息技术大数据数据分类指南GB/T40094.2电子商务数据交易第2部分:数据描述规范GB/T42450信息技术大数据数据资源规划DB51/T3056政务数据数据分类分级指南3术语和定义GB/T5271.1、GB/T11457、GB/T18492、GB/T25000、GB/T29264、GB/T35295、GB/T36625.3、GB/T38667、GB/T40094.2、GB/T42450、DB51/T3056界定的以及下列术语和定义适用于本文件。3.1数据清洗加工datacleaningandprocessing运用一定方法修正识别的数据问题,转化为满足数据质量要求或应用要求的数据
5、的过程。4缩略语下列缩略语适用于本文件。ETL:数据的抽取、转换和加载(ExtractTransformLoad)1DB5120/T19.320235清洗目的数据清洗的目的是为了通过纠正不符合要求的数据来提高数据质量,满足数据质量标准要求。其中不符合要求的数据主要有三类:a)残缺数据:缺一些记录,或一条记录里缺一些值(空值),或两者都缺。b)错误数据:数据没有严格按照规范记录,包括格式内容错误、逻辑错误、不合规等。c)重复数据:出现多条相同的记录或多条记录代表同一实体。6管理职责数据提供方:a)数源单位需要参与数据清洗规则和错误处理策略的制定。b)数源单位需要参与数据转换规则的制定。c)数源单
6、位针对重要数据缺失的错误,需要凭借业务经验对缺失数据进行补全。数据管理方:a)数据管理方需要参与数据清洗规则和错误处理策略的制定。b)数据管理方需要参与数据转换规则的制定。7清洗流程资阳市数据资源中心的数据清洗加工采用ETL架构的清洗流程,流程如附录A所示。8具体操作8.1定义规则分析抽取目标数据的范围体量、类型、内容、关系、质量等信息,全面识别数据情况。以需求为导向、应用为目标,考虑目标数据资源特点和工作复杂程度,结合业务要求或用户和其他相关方的需求、期望,定义切实可操作的数据清洗加工目标及规则。8.2数据过滤数据过滤的任务是过滤那些不符合要求的数据,数据过滤包括以下操作:a)将非结构化和半
7、结构化数据转化为结构化数据。b)对噪声数据进行删除。c)对业务数据中不符合应用规则的数据进行删除。d)过滤删除掉的数据应存入问题数据库表,便于后续查证或重新使用。注:噪声数据指存在错误或异常的数据,这些数据对数据的分析造成了干扰。8.3数据检核8.3.1检核要求数据检核应包括以下操作:a)非空检核:应在字段为非空的情况下,对该字段数据进行检核,数据不能为空值。b)长度检核:数据长度应满足转换要求的字段长度。c)数据量检核:过滤后的数据总量应与原始抽取的数据总量吻合。2DB5120/T19.32023d)数据类型和数据值检核:数据类型和值应能支持后续数据转换过程,如后续根据定义规则需要将时间字符
8、串数据转换成时间类型时,还需检核时间字符串类型的数据,应符合时间格式。8.3.2检核步骤数据检核步骤如下:a)按检核要求检核数据资源是否满足要求。b)当不满足检核要求时,应进行数据错误标识和错误处理。c)当满足检核要求时,直接进行数据转换。8.4错误标识8.4.1识别方法可采用统计学方法、数据挖掘方法、基于聚类的方法、基于距离的方法、基于分类的方法、基于关联规则的方法、业务区分等方式分析数据,从而识别出数据的错误类型。8.4.2标识步骤错误标识步骤如下:a)按识别方法推荐的方法,分析筛选出数据资源中存在的数据问题。b)按错误的类型,对数据问题进行分类并标识错误。8.5错误处理8.5.1由数源单
9、位进行错误处理的情况,建议数源单位在业务系统中更正数据,并把更正后的数据更新推送到前置库。8.5.2残缺数据处理8.5.2.1处理策略按照字段缺失比例和字段重要性,分别制定策略:a)对重要性高、缺失率高的残缺数据,采用以下策略:1)尝试从其他渠道取数据补全;2)使用其他字段通过计算获取;3)去除该字段,并在结果中标明。b)对重要性低、缺失率高的残缺数据,去除该字段。c)对重要性高、缺失率低的残缺数据,采用以下策略:1)通过计算进行填充;2)通过经验或业务知识估计。d)对重要性低、缺失率低的残缺数据,不做处理或进行简单填充。注:重要性高指该数据如果残缺了会导致业务中断;缺失率按数据质量指标要求应
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB5120_T 19.3-2023 数据资源体系技术指南 第3部分:数据清洗加工规范 19.3 2023 数据 资源 体系 技术 指南 部分 清洗 加工 规范
限制150内