数据清洗课件数据转换与加载.pptx
《数据清洗课件数据转换与加载.pptx》由会员分享,可在线阅读,更多相关《数据清洗课件数据转换与加载.pptx(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章数据转换与加载6.1数据清洗转换6.2数据质量评估6.3数据加载习题 6.4上机练习与实训6.1数据清洗转换第六章 数据转换与加载确定数据清洗的规模,通常采取RDBMS和文本为清洗载体,常见的数据清洗范围包含:1数据清洗格式内容清洗12缺失值清洗3逻辑错误清洗第六章 数据转换与加载存储 存储成本下降6.1数据清洗转换(1)缺失值清洗在各类数据源系统中,缺失值的问题时常发生,在一定程度上,造成缺失值的原因在于系统的不完备性和故障。具体原因较多,主要分为系统原因和人为原因l计算源端数据中字段缺失值比例,之后根据缺失率和重要性分别制定策略。对于重要性高和缺失率高的数据,可采取数据从其他渠道补全
2、、使用其他字段计算获取和去掉字段,并在结果中制定策略进行清洗;对于重要性高但缺失率较低的数据,可采取计算填充、经验或业务知识估计等策略进行清洗;对于重要性低、缺失率高的数据,可采取去除该字段的策略进行清洗;对于重要性低且缺失率低的数据,可以不做处理确定范围01第六章 数据转换与加载存储 存储成本下降6.1数据清洗转换(1)缺失值清洗确定范围01第六章 数据转换与加载6.1数据清洗转换(1)缺失值清洗02去除重要性低的字段重要性低的字段,且缺失严重,可以采取将数据抽取的结果放入一中间临时库中,在数据清洗之前,先备份临时库数据,然后直接删除不需要的字段。02填充缺失内容某些缺失值补齐采取一定的值去
3、填充缺失项,从而使数据完备化。通常基于统计学原理,根据决策表中其余对象取值的分布情况来对一个空值进行填充,例如用其属性的平均值来进行补充等第六章 数据转换与加载6.1数据清洗转换(2)格式内容清洗数据源系统若为业务系统,则该系统的数据通常由用户填写,在用户填写数据的过程中,存在全角输入、半角输入、空格符号、错误字段格式等错误l当采取多个源端整合数据时,因源端系统的不够严谨,采取了字符串类型作为数据的存储类型,可能在不同的源中存储日期、时间的格式不一,导致数据多源抽取到临时表后存在不同的日期格式,从而导致目标系统无法应用时间日期格式清洗01第六章 数据转换与加载6.1数据清洗转换(2)格式内容清
4、洗l全角指一个字符占用两个标准字符位置,半角指一字符占用一个标准的字符位置。在数据采集时,时常因输入法设置问题,将字母或者数字输入存储为全角格式。故在对数据进行ETL操作时,需要进行全角和半角转换全角半角清洗02第六章 数据转换与加载6.1数据清洗转换(2)格式内容清洗l在源端系统中,数据采集时因人为原因可能存在一些数据不应有的字符,例如身份证号码出现非数字和X的情况,中国人的姓名出现西文字符、阿拉伯数字等情况。此类问题的解决需要采取半自动+人工方式相结合进行清洗不应有的字符03第六章 数据转换与加载6.1数据清洗转换(2)格式内容清洗l某些指标非常重要又缺失率高,且存在其他数据源可以获取,可
5、采取重新抽取不同数据源的数据进行关联对比清洗重新取数04第六章 数据转换与加载6.1数据清洗转换(2)格式内容清洗l端系统同样存在数据与该数据的字段表达意义不符的现象,该类问题主要来源于源端业务系统的缺陷内容与字段不匹配03第六章 数据转换与加载6.1数据清洗转换(3)逻辑错误清洗l数据排重是指在数据中查找和删除重复内容,而不会影响其保真度或完整性。数据排重需要技巧,首先一定要有信息去识别一条数据的唯一性,也就是类似数据库中的主键,如果唯一性都无法识别,排重也就无所依据排重清洗01第六章 数据转换与加载6.1数据清洗转换(3)逻辑错误清洗l不合理数据指在业务系统中收录的部分数据存在不合理性,例
6、如一个大学生的实际年龄不能为5岁。一个员工的年龄也不可能超过200岁,QQ信息上好友的年龄为0岁等,导致此类问题的原因可能是业务系统操作失误,也有可能是用户为进行信息隐藏而故意错填数据。对于不合理的数据,在数据采集时,若该数据不是很重要,建议直接删除,否则需要进行人工干预或者引入更多的数据源进行关联识别去除不合理值01第六章 数据转换与加载6.1数据清洗转换(3)逻辑错误清洗源端系统在提供数据时,存在部分信息可以相互验证的校验,例如,在某教务系统中,教师任课的编号由“学期教工号课程代码序号”构成,则该号码能够有效地验证当前教师任课信息中的学期信息、教师信息、课程信息等。同理,身份证号码也能够有
7、效验证当前人员的出生年月,从而能够推算该人员的年龄。源端数据存在矛盾且可以利用规则判定的情况,能够通过ETL工具的规则设置进行查找发现“脏”数据,从而达到更加容易清洗的目的修正矛盾内容01第六章 数据转换与加载6.1数据清洗转换2数据校验数据检验是在数据清洗转换过程中,通过对转换的数据项增加验证约束,实现对数据转换过程的有效性验证。可能存在的数据验证方法有数据项规则设置、数据类型检验、正则表达式约束检验、查询表检验等。对数据执行检验后,ETL工具提供验证结果的输出。在Kettle中,可以在数据转换过程中增加“数据检验”(Data Validator)步骤来完成数据的有效性校验。6.1数据清洗转
8、换第六章 数据转换与加载Kettle中的数据校验在Kettle中,可以在数据转换过程中增加“数据检验”(Data Validator)步骤来完成数据的有效性校验。123NULL验证设置校验规则日期类型验证6.1数据清洗转换第六章 数据转换与加载Kettle中的数据校验在Kettle中,可以在数据转换过程中增加“数据检验”(Data Validator)步骤来完成数据的有效性校验。45日期类型验证正则表达式验证第六章 数据转换与加载6.1数据清洗转换3错误处理数据错误是指数据在转换过程中出现数据丢失、数据失效和数据的完整性被破坏等问题。数据出现错误的原因五花八门,有存储设备的损坏、电磁干扰、错误
9、的操作、硬件的故障等。造成的后果就是会增加大量无用数据甚至会造成系统瘫痪。因此,人们采取各种手段对数据转换进行优化,尽可能避免错误产生第六章 数据转换与加载6.1数据清洗转换(1)转换过程错误在设计ETL过程中,存在一些设计未对转换过程进行错误处理,进而造成ETL执行完成后,目标端的数据未能按照约定数据标准进行组织存储,从而导致“脏”数据进入目标端。转换过程错误是在执行ETL过程中发生的转换错误,该错误一旦发生,应该进入错误处理环节,终止ETL转换,保证进入目标系统的数据干净可靠。第六章 数据转换与加载6.1数据清洗转换例6.3 设置“定义错误处理”作为错误处理方式(1)增加“Excel输出”
10、,重命名为“Excel错误输出”。(2)在“表输出”步骤上通过右键快捷菜单选择“定义错误处理”命令(如图6-17所示),打开“步骤错误处理设置”对话框第六章 数据转换与加载6.1数据清洗转换例6.3 设置“定义错误处理”作为错误处理方式(3)设置“步骤错误处理设置”对话框的参数,指定“目标步骤”为“Excel错误输出”,并选中“启用错误处理?”复选框,指定相关的错误字段值第六章 数据转换与加载6.1数据清洗转换例6.3 设置“定义错误处理”作为错误处理方式(4)指定了Excel错误输出后,表输出中遇到的错误就会直接转存到Excel输出,除了在“步骤错误处理设置”中指定的字段名之外,表输出中的字
11、段名也会一并加入Excel输出中第六章 数据转换与加载6.1数据清洗转换(2)转换数据错误所谓数据转换,从计算机审计的需求来讲,主要包括两个方面的内容:一是将被审计单位的数据有效地装载到审计软件所操纵的数据库中;二是明确地标识出每张表、每个字段的具体含义及其相互之间的关系。而转换数据错误则出现在数据转换过程中,要想实现严格的等价转换是比较困难的。两种模型在数据转换的过程中会出现各种语法和语义上的错误。n命名错误:源端数据源的标识符可能是目的数据源中的保留字。n格式错误:同一种数据类型可能有不同的表示方法和语义差异。n结构错误:如果两种数据库之间的数据定义模型不同,如为关系模型和层次模型,则需要
12、重新定义实体属性和联系,以防止属性或联系信息的丢失。n类型错误:不同数据库的同一种数据类型存在精度之间的差异。第六章 数据转换与加载6.1数据清洗转换(2)转换数据错误对于以上数据转换中的错误,可进行相应的处理。n对于命名错误,可以先检查数据源中的保留字,建立保留字集合,对于保留字中的命名冲突,根据需要重新命名。n对于格式错误,可以从数据源的驱动程序中取出相对应的数据源的数据类型后,对一些特定的类型进行特殊的处理。n对于不同数据库的同一数据类型的精度冲突,类型转换中将类型和精度结合起来决定源端数据类型和目标数据类型的映射关系。找出目的数据源中与源端数据源类型的精度最匹配的数据类型作为默认的映射
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 清洗 课件 转换 加载
限制150内