数据质量评估与提升方法及应用研究.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据质量评估与提升方法及应用研究.docx》由会员分享,可在线阅读,更多相关《数据质量评估与提升方法及应用研究.docx(69页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 上海交通大学硕士学位论文 数据质量评估与提升方法及应用研究 硕 士 研 究 生 : 唐继仲 学 号 : 1121209083 导 师:蒋炜教授 申 请 学 位 :管理学硕士 学 科: 工商管理 所 在 单 位 : 安泰经济与管理学院 答 辩 日 期 : 2015 年 5 月 授予学 位单位 : 上海交通大学 Dissertation Submitted to Shanghai Jiao Tong University for the Degree of Master DATA QUALITY ASSESSMENT AND IMPROVEMENT: METHODS AND APPLICATIO
2、N Candidate: Jizhong Tang Student ID: 1121209083 Supervisor: Prof. Wei Jiang Academic Degree Applied for : Master of Management Speciality: Business Administration Affiliation: Antai College of Economics & Management Date of Defence: May, 2015 Degree-Conferring-Institution: Shanghai Jiao Tong Univer
3、sity 上海 交 通大学学位 论 文 I 数据质量评估与提升方法及应用研究 摘要 在数据的产生、存储、传输的过程中,难免会出现错误数据、缺 失 数据等问题,数据的存在是因为它的价值,有些数据用作证据,有 些 数据用来做分析和预测;不管数据的作用是什么,如果数据出现错 误、 缺失以及其他问题, 都会降低数据存在的价值, 有时甚至带来深 重 的灾难。因此,确保数据的高质量,是有效利用数据的基础。近年 来, 数据呈现爆炸式增长, 人们对大数据的热情与日倶增, 很多人努 力 寻找更好的数据分析方法,很少人注重数据质量问题,对数据质量 进 行研宄的文章比较少。 本文通过对数据质量管理研究的文献进行梳
4、理,总结在这方面的研宄成果,重点讨论了数据质量评估和数据质量 提升方法,将聚类和分类方法引入到数据质量评估过程中,列举并比 较了几种常见的聚类和分类方法,探索了这两种方法在数据质量评估 的可行性, 将测量工具分析方法 Gage R&R 以及方差分析法用于可行 性分析,最后简单介绍了针对不同的数据质量问题应该采用的提升方 法。以消费者投诉数据为实例研宄对象,选择 K-means 聚类对数据进 行 质量评估,聚类数对应于待检验的人工分类数,每个聚类簇的名称 与 人工分类的名称相对应,再建立评估矩阵,采用 Van Rijsbergen 的 上海 交 通大学学位 论 文 FI 值理论得到评估值,再用测
5、量工具分析方法对这些评估值分析,发 现聚类分析方法有可能用于数据质量评估。在数据质量提升方面,对 于非标准化数据的质量提升做了详细介绍,采用关键词匹配的方法实 现了数据标准化。经过对数据的探索以及质量评估,对数据质量管理 提出了一些建议,将数据质量管理分为三部分:数据库设计阶段、数 据生产过程、数据生产后处理。 关键 词:数据质量管理、 K-means 聚类、 GageR&R、投诉数据 上海 交 通大学学位 论 文 HI DATA QUALITY ASSESSMENT AND IMPROVEMENT : METHODS AND APPLICATIONS ABSTRACT In data pro
6、duction, storage and transmission processes, there are inevitably data problems, missing data and other issues. The existence of the data is due to its value, some data is used as the evidence, others is used for analysis and forecasting. Whatever data is used for, if the data has error, missing or
7、other problems, the value of the data will be reduced, sometimes even brings huge losses, so ensuring data high quality is the foundation of the effective use of data. In recent years, data has gotten explosive growth, which has been increasing peoples interest in big data, most of people always fin
8、d better methods to analyze big data, but few people really care about data quality, which leads to few papers about data quality. In this paper, by reviewing literatures about data quality, I summarized the research achievements in this area, my research is mainly about methods of evaluating data q
9、uality and improving data quality, and apply clustering and categorization in evaluating data quality, introduce and compare some usual-used methods of clustering and categorization, and explore whether they are feasible. As we know, any measurement 上海 交 通大学学位 论 文 4 results have deviation, I apply G
10、age R&R and analysis of variance to evaluate the feasibility of evaluation methods like clustering and categorization, and simply introduce different improvement methods of data quality according to different data quality problems. I take the consumer complaints data as an example and choose K-means
11、 clustering to evaluate its quality, clustering number is equal to artificial classification number, clustering names correspond to artificial classification names, then establish assessment matrix, and use Van Rijsbergens FI value theory to get assessment values, and apply measurement tool analysis
12、 method to analyze these values, finally, I find that clustering analysis methods is feasible for assessing data quality. In terms of data quality improvement, I introduce unstandardized data quality improvement in detail, key-words matching method is adopted to realize the standardization of data.
13、After data exploration and quality assessment, I put forward some suggestions on data quality management, which can be divided into three parts: the database design stage, data production process and data post-processing. KEY WORDS: data quality management, K-means clustering, Gage R&R, complaints d
14、ata 上海 交 通大学学位 论 文 5 目录 m- m . i u 研宄背景 . 1 1.2 研宄意义 . 2 1.3 相关文献回顾 . 2 1.4 本文研宄内容与框架 . 7 1.4.1 研宄内容 . 7 1.4.2 研宄框架 . 8 1.5 本章小结 . 8 第二章数据质量的特点和问题分类 . 9 2.1 数据质量的特点 . 9 2.2 常见的数据质量问题 . 10 2.3 本章小结 . 12 第三章数据质量的评估及提升方法 . 13 3.1 数据质量的评估维度 . 13 3.2 数据质量评估方法 . 14 3.3 分类方法比较及分类效果评估方法 . 15 3.3.1 分类方法比较 .
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 质量 评估 提升 方法 应用 研究
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内