数据处理与数据清洗(共11页).docx
《数据处理与数据清洗(共11页).docx》由会员分享,可在线阅读,更多相关《数据处理与数据清洗(共11页).docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上什么是数据处理?数据处理有广义和狭义两种理解,广义的理解,所有的数据采集、存储、加工、分析、挖掘和展示等工作都可以叫做数据处理;而狭义的数据处理仅仅包括从存储的数据中通过提取,筛选出有用数据,对有用数据进行加工的过程,是为数据分析和挖掘的模型所做的数据准备工作。一般意义上讲的数据处理是狭义的定义,即对数据进行增、删、改、查的操作。在目前大数据的背景下,我们数据处理工作往往是通过技术手段来实现,比如说利用数据库的处理能力,对数据进行增加、删除、改动、查询等处理。在实践中,数据处理工作中最大的是对数据进行清洗,即对不清洁的数据进行清洁化的工作,让数据更加规范,让数据的结构
2、更加合理,让数据的含义更加明确,并让数据处在数学模型的可用状态。数据之“脏”数据的“脏”是一个比喻的说法。我们把数据记录不规范、格式错误、含义不明确等叫做数据的“脏”,包括几种典型的形式。(1)数据不规范的情况。比如姓名,同样是张三,有的地方记录为“张三”,有的地方记录为“张 三”,为了让两个字的姓名和三个字的姓名都有相同的长度,中间添加了空格。这种情况同样发生在地址字段里,比如说“北京”、“北京市”、“北 京”,虽然都是指北京,于我们人来讲很容易识别,但对计算机来讲,这三个写法代表着三个不同的值,我们需要通过建立映射关系的方式,将数据记录进行统一。常见的数据不规范的情况还包括日期格式的问题。
3、日期格式常见的几种记录方法如下:2015/10/202015-10-202015年10月20日10/20/2015Oct. 20, 2015October 20, 20152015.10.20每个人都有不同的喜好和记录方法,这给计算机识别造成了很大的困难,一个公司的所有数据都应该有一个明确的规定,统一数据的录入格式。(2)数据不一致的情况数据不一致的情况往往是没有遵循我们单维数据表的原则导致的。因为同一条信息记录在不同的数据表甚至数据库中,当我们对数据信息进行更改之后,因为没有同时对所有的记录点都做相同的更改而导致的数据不一致的情况。为了避免这种情况,我们引入了“单维数据表”的概念,强调了公司
4、内部同样一条信息,只能记录在一个地方,当其他地方需要的时候,通过索引查询的方式来保证数据的一致性,在任何数据表中存在其他表中数据来源的时候,都要在查询输出时进行“同步”更新。数据的一致性虽然技术上比较容易实现,但在企业实践中却有着巨大的难度。采购部门会录入供应商的信息,而财务部需要向供应商付款,所以也会保留供应商相关的信息数据,而采购部门和财务部分分属不同的职能部门,财务部门也会采集一部分供应商财务相关信息,包括银行信息、账号信息、税务信息、工商信息等,如果发生变化,比如说法人变更、业务变更、企业性质变更等,财务会对其数据进行更新;采购部也会对供应商的信息进行采集并登录相关的信息管理系统。如果
5、采购的管理信息系统能够同财务所使用的管理信息系统对接且能够把同条信息能够关联或者建立索引关系,则该公司的数据一致性比较容易保障。但如果两个都采用了不同的系统,就容易导致数据不一致的情况。而这种情况在大多数公司种都存在,且很严重。(3)标准不统一的问题我们对一些事物的描述方法需要建立统一的标准,从而让计算机可以有效地对文本数据进行处理。举一个具体的例子。比如说导致产品出现质量问题的原因,多数情况下是手工录入的,同样的原因,不同的数据录入的描述会有不同。同样是因为电压不稳导致的产品质量问题,有人会录入为“电压不稳”,有人会录入为“电流不稳定”,有人录入为“供电问题”,有人录入为“缺少稳压设备”,有
6、人录入为“供电负载异常”。如果没有统一的规范,我们在统计汇总时会产生上千个导致产品品质问题的原因。这给数据解读和分析,以及寻找改善措施带来很大的麻烦。这就需要数据库管理员根据公司的实际情况,将该类原因进行归类,然后设定几个类别,由员工在系统中进行选择,而不是让他们手工录入。一般情况下,出现最多的前10名原因能够覆盖90%以上的情况,在录入中,先让员工选择,然后留出一个“其它”,当员工选择其它的时候再进行录入,这样就能够有效规范这种数据的录入标准化问题。根据大多数人的记忆习惯,在经常使用的范围内,一般能够轻松记住7个左右的信息,因此,我们尽可能把这些导致质量的原因找出最常见的7个,对录入数据的人
7、进行培训,他们基本能够记住这7个,特别是在面对教育水平不高的一线工人的时候。(4)格式不标准的问题所谓的格式不标准的问题是在数据录入时,使用了错误的格式。比如说,录入日期时,因为格式不规范,计算机不能自动识别为日期格式,出现了各种个样的文本;比如说录入数值时采用的中文字符格式,用了全角字符等,A和是不同的,1和是不同的,0和O是不同的等;有些数据格式要求英文逗号分隔而错误地使用了中文的逗号;有些要求使用减号作为连接符,有的使用了下划线或者全角字符的连接符;有些要求使用英文引号,但录入时采用了中文的引号等等。这种问题比较容易处理,需要信息系统设定相关的数据校验,如果录入不准确,数值录入为全角字符
8、后会被识别为字符,系统弹出数据录入格式错误的警告基本可以解决大部分这样的问题。(5)附加字段的问题我们在数据清洗的时候,往往需要添加新的字段以便我们数学模型可以直接处理数据。比如说司龄、年龄等,我们数据库中可能没有直接的字段来记录员工的司龄,我们需要通过入职日期到目前数据采集日期间的差来计算司龄,这就需要添加司龄字段之后,通过入职日期来计算,年龄则通过出生日期来计算。数据杂质和噪音在外部大数据中因为数据价值密度较低,数据的杂质和噪音很多,需要大量的数据处理工作才能将有价值的数据和信息提炼出来,而企业大数据,特别是内部采集的数据,其价值密度高,几乎所有的数据和信息都是有价值的,其杂质和噪音也会少
9、。什么是数据杂质呢?所谓的数据杂质就是在数据集中出现了与数据记录本身无关的数据,就如大米中出现了沙子一样,需要在处理数据的过程中,将这部分数据剔除。比如说录音或者录像数据,本质上上为了记录经营或者管理活动,但在过程中可能因为没有活动发生,但录音和录像还在继续,这部分数据就会成为杂质。企业生产线上的监控录像,当没有生产时仍然在录像,拿这一部分时段的录像就可以从整体数据中剔除。就如行车记录仪,当停车时,记录仪检测到汽车已经不动超过10秒钟,录像就暂停,当图像中的画面有动时,则及时启动录像过程,这是一种比较智能的方式在遴选数据的采集和记录。另外一种数据的来源是数据采集或者记录过程的杂质。比如说问卷调
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 数据 清洗 11
限制150内