大数据中数据的质量问题探析.docx
《大数据中数据的质量问题探析.docx》由会员分享,可在线阅读,更多相关《大数据中数据的质量问题探析.docx(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据中数据的质量问题探析刘妍东摘 要:随着云时代的来历,大数据技术也越来越引起人们的关注。大数据带来的巨大的技术和商业机遇使众多的企业趋之若鹜。大数据分析挖掘和利用将为企业带来巨大的商业价值,但随着数据规模的急剧剧增,数据体量巨大、数据类型繁多,数据的价值参差不齐,在数据分析时将导致分析偏差。所以在大数据时代,数据的质量问题也是重中之重。通过分析,数据的质量问题主要存在这六大方面的问题:准确性、完整性、一致性、相关性、时效性、可信性和可解释性。关键词:大数据;质量问题中图分类号:TB 文献标识码:A doi:10.19311/ki.1672-3198.2020.04.0921 从采集的角度划
2、分质量问题1.1 准确性准确性是指数据是否正确的,数据存储在数据库中的值是否对应于真实世界的值。例如,某用户在使用支付宝绑定银行卡时,网站要求验证用户的真实姓名和身份证号码。如果用户提供的证件号码与实际号码一致,那么该号码存储在数据库中的值就是正确的。数据的不准确由如下原因造成:一是在收集数据时,设备出现故障,导致数据存储的值出现乱码。二是在数据输入时,人为的输入不准确的信息,或者计算機内部出错导致录入的信息有误,比如我们上网注册一些信息时,出于隐私考虑,用户会故意输入不正确的信息,包括年龄、地址、手机号等。 三是在数据传输的过程中出现错误。比如,超出了传输缓冲区的大小,数据会出现截断等现象。
3、最后一种是命名约定、数据代码、输入字段的格式不一致导致出错。其中,最常见的是:不按格式输入导致出错,例如输入字段为日期时,多个用户输入日期的格式不一致。1.2 完整性完整性是指信息具有一个实体描述的所有必需的部分。在传统关系型数据库中,完整性通常与空值(NULL)有关。空值是指缺失或不知道具体的值,可能是一条记录中的某个属性缺失,也可能是整条记录都丢失。不完整的数据对数据分析会产生影响,比如考虑构造一个预测交通事故发生率的模型。如果忽略了驾驶员的年龄和性别信息,那么除非这些信息可以间接地通过其他属性得到,否则模型的精度可能是有限的。这种情况下,我们就需要尽量采集全面的数据信息。1.3 一致性数
4、据一致性是指在数据库中,不同表中存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。比如表1描述学生的基本信息,包括学号、姓名、性别、出生日期和所在专业,而所在专业必须从专业信息表获取。表2描述了专业的基本信息。从这两个表可以看到,表1中的学生李想所在的专业号并没有出现在表2中,说明该条记录的专业号有误,必须修改正确,才能保证两张表对应字段的正确性,这是数据的逻辑不一致。 数据不一致还体现在记录的不规范上,比如两个表中对日期的格式记录不一致,如20100405和2019年4月5日这两种格式,会导致在数据集成中造成数据冲突。另外在数据出现冗余的情况下,数据内容由于各种原因比如并发控
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 质量问题 探析
限制150内