《数据质量评价方法概述,信息管理论文.docx》由会员分享,可在线阅读,更多相关《数据质量评价方法概述,信息管理论文.docx(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据质量评价方法概述,信息管理论文题目 第一章 第二章 数据质量评价方式方法概述第三章 第四章 5.1 - 5.4 5.5 第六章 结论/以下为参考文献 第 2 章 相关理论研究 2.1 大数据。 2.1.1 大数据内涵。 由于大数据还处于不断发展的经过中,专家学者的认知与研究也在不断的深切进入,大数据的概念到如今更多的是描绘叙述性的语言,还没有统一的定义。在(大数据时代一书中,维克托 迈尔-舍恩伯格和肯尼斯 库克耶把大数据定义为直接应用所有数据进行分析处理而不采用随机分析法抽样调查这样捷径的数据处理方式。大数据具有下面四大特征:数据量大、数据类型繁多、流动速度快、价值密度低。全球战略研究公司
2、麦肯锡给出了一个比拟通用的大数据概念是:一种规模非常宏大,以致于在数据的获取、存储、管理、分析等方面都大大超出传统数据库的软件工具能力的数据集合。而维基百科中对大数据概念类似:利用常用软件工具管理和处理数据所消耗的时间超过可容忍度的数据集。 战略研究机构 Gartner 将大数据归纳为需要新的处理形式才能够加强决策力和流程优化的海量、高增长率和多样化的信息资产; 徐宗本院士在第 462 次香山科学会议上的报告中,将大数据定义为 不能够集中存储,并且难以在可接受时间内分析处理,华而不实个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集 . 2.1.2 大数据特征。 国内外对大数据的概
3、念及其特征并没有完全统一的界定,无论是 3V -数据量大volume、数据类型繁多variety、处理速度快velocity, 4V -较前者多一个价值密度低value特性,还是 IBM 提出的 5V -在 4V 基础上加上真实性veracity这一特征,都是对大数据的贴切描绘叙述,具有各自的合理性。国内也有学者分析了大数据的产生,归纳了大数据复杂complication;,简称 4V+1C 来概括其特征。华而不实最被大多数学者认同的要数 4V . 数据量大:随着当代信息技术的快速发展,海量的冗杂数据不断涌入人类生活,尤其是互联网、物联网的应用和新型社交媒体、社交软件的普及以后,新的数据实时产
4、生,数据规模空前之巨,存储单位从过去的 GB 到 TB,直至 PB、EB数据规模已经远远超出传统的数据处理方式的承受能力,比方某著名社交网站天天约有 3 亿张照片、数百万小时的视频上传;而这一天产生的信息量,足能够装满 2 亿张光盘。 数据类型繁多:一是传统的构造化数据,如财务统计类数据、信息管理系统类数据、医疗系统方面的数据等,其特点是数据间因果关系强;二是日渐发展壮大的非构造化数据,如视频、音频、图片等,其特点是数据之间没有因果关系;三是半构造化数据,如 文档、网页、邮件等,它的特点是数据问的因果关系弱。能够看到数据类型也从原来的构造化逐步发展到以半构造化和非构造化为主,无疑加大了数据存储
5、和处理的难度,使得传统的数据分析在解决问题时往往难以获得理想的效果。 处理速度快:与传统的广播、报纸等数据载体不同,大数据的交换和传播是通过互联网、云计算来实现的,加上一些社交媒体,如微博,微信等交互式软件的流行,对处理数据的响应速度有更严格的要求。大数据与海量数据的重要区别,是除去大数据的数据规模宏大以外,最明显的区别是数据的复杂程度和处理速度是大数据的重要具体表现出。 价值密度低:大数据的整体价值是宏大的,但就单个数据本事的价值而言,其价值是比拟低,有学者把这比淘金,沙子很多,金很少,但是淘金这件事还是很有价值的。与传统的数据相比,大数据的价值往往是潜在的,在于从看似大量不相关的各种数据中
6、,挖掘出对将来趋势分析有关联的数据,再利用云计算、人工智能等方式方法进行深度分析,挖掘出新知识或新规律,并应用于各个领域,进而最终到达提高生产效率,改善生活的结果。 2.2 大数据。 2.2.1 大数据的构成和界定。 大数据根据形式内容能够分为下面三类。 第一是在机关记录的行政数据。所谓行政记录是行政机关为了监督管理以登记、报告、行政许可、审批等方式收集并保存的被监督对象的相关信息,是各级行政机关的核心工作记录。通常用文字和数值描绘叙述监督对象的情况和状态。 第二是企事业单位的业务数据,这是我们国家政治体制的特殊产物,企事业单位主要是指为社会、群众提供公共服务的事业单位以及具有公共服务职能的企
7、业,能够包括:医疗卫生、教育、供水、供电、供气、供热、公交、社保、邮政、电信等单位。这些单位在办理相关业务时产生的与业务有直接或间接关联的相关数据,也是数据的一部分。 第三是 四上 企业规模以上的工业、建筑业、零批住餐业、服务业的生产经营数据。企业的数据主要以构造化数据为主的操作型数据库中的各种业务数据和办公自动化系统中包含的非构造化数据为主的各类文档数据。主要由生产经营的经过中积累下来的数据记录,如销售记录、人事记录、采购记录、财务数据和生产库存记录等等,这些企业内部数据与统计工作有一定关联,尤其是 四上 单位,这些企业的产、销、财务数据均是部门进行指导调研的的重要根据。 2.2.2 大数据
8、内涵及特征。 1大数据资源丰富。 作为社会最主要的管理部门拥有海量数据资源,是社会解决实际问题需要借助管理资源37.首先是数据信息化历经多年的建设,使得部门积累的行政记录数据大规模增长。其次是商业领域对数据资源高度重视,使得大规模的诸如交易记录数据等得到了妥善保存和深度挖掘38.而网络社交媒介的发展,也使得网络媒介获取大量的描绘叙述用户特征行为的数据39.这些数据都极大的丰富了以往数据来源的渠道,使能够提供更多的公共信息服务2大数据质量较高。 部门的大数据质量与其他数据资源相比,更受社会、被调查者的重视,质量相对较高。随着多年来政务公开的建设,全面提升了数据管理的信息化与标准化,制定了数据管理
9、标准,加强了大数据信息平台建设。管理部门全面提升后其硬件与软件技术,改革的处理机制等,变革数据管理流程设计,这一切为大数据的应用提供了更好的平台。 3大数据透明性较强。 大数据冲击着管理数据的固有体制形式,伴随着日益明显的数据开放趋势,大数据将是数据透明管理的开端,促进数据管理体制机制改革40.数据资源管理程度加深固然关键性的数据资源仍然要存在壁垒,没有能开放到公众个人。但是在从整体角度看,大数据有利于建立信息分享机制,完善信息发布职能,强化的服务功能,实现管理体制机制的飞跃41. 4大数据能够提高决策精准性。 大数据能够帮助部门跟准确的进行决策,数据数量诸多且来源广泛,利用相关数据进行挖掘分
10、析,能够提升关联的针对性,运用数据融合处理,采用自动联网记录,能够最大程度降低数据非系统性误差,以保证数据的准确性和真实性42.通过大数据的云计算进行总体分析,能够验证调查样本数据代表性,运用多维度对同一社会管理问题的调查数据进行多角度预测,能够降低风险,大大提高决策的精准性43. 2.2.3 大数据的分类方式方法。 大数据的开创建立是以归类大数据信息来作为条件和根本源头的。要想最大程度发挥信息的有效性,有赖于工作人员对目的数据的不同种类进行定位。 对于信息类型的鉴定和挑选,是大规模数据进行可行性研究feasibilitystudy的前提条件。在一般情况下,根据不同的层次需求,进行划分的信息数
11、据,能够根据下面几方面进行归类:首先是根据行政团体或部门的多少实行归类,其次根据行政部门或团体的等级实行归类,最后根据数据信息本源的门类实行归类44. 首先,我们能够把分享信息资源对象作为华而不实一条线索进行分析,顺着主脉络可找出这条线索的三个分支。第一种是,两个同级别或不同级别的机构之间共同共享某一信息资源。正如,户籍部门与警察机关分享社会成员的身份信息。机构之间就是应用这种形式完成相互之间信息传递活动的,信息的流向有时是单向的,有时又是双向的,它不拘泥某一固定形式。明确的信息定位以及便捷的信息交互是它的突出优点。但这种形式也不是完美无缺的,其特异性和限定性使其不具有普适性。第二种是,一对多
12、或者是多对一的机构之间的信息传递和共享。它是当前社会中广为流行的形式。举例来讲,财政部想要了解某一季度财政信息,就有赖于央行、国库、各经济部门等机构的数据配合45.第三种是组织部门之间多对多的资源和信息传递活动。从发展的进程来看,将来这种形式将取代其他形式成为主流。举例来讲,处理好一件突发性公众事件,就离不开不同部门的通力合作,没有及时的信息交互就无法顺利解决问题。 其次,我们把根据行政部门或团体等级高低实行归类的形式作为第二条线索来分析。第二条线索的优势在于简明精炼。它的劣势在于缺乏信息分享的平等性,机构或团体之间存在级别的差异,级别越高的享受的权利越大。高级别机构能够获取来自低级别的机构的
13、信息,但反过来低级别的机构却无法主动获取来自高级别机构的非公开信息。即便在同一级别的机构之间,假如两者是潜在竞争对手,权益的衡量造成的冲突,也会导致数据分享也无法在两个机构之间成功完成。 最后,我们把根据信息的本源特性作为第三条线索进行划分。由于它对于数据平台的搭建具有本质性的意义,所以我们把这条线索作为三种方式中最为核心的部分。顺着这条线索我们能够找到它的两条分支,第一个非构造性的数据资料以及构造性的数据资料。我们先从分析构造性的数据资料入手,这种资料的主要构成部分由经过专业化处理的信息组成,经过加工后的数据库内信息无需再做其他处理,便可被使用者直接应用。截止到当前为止,随着对于信息处理的程
14、度的深切进入,数据库内已经存在很多能够直接投入使用的可靠性的数据文件。但值得注意的是,办公系统的自动化程度仍有很大的提升空间,比方一些视频、音频、图片类的数据文档还无法像大多数文字类数据一样不经过处理,就能够直接应用。 除此之外,我们在处理大数据时,要注意下面问题,不要固守一种思维,以为处理数据的方式方法越多就越好,这样会导致我们抓不住重点。什么问题都有主要矛盾,把握住核心即可。贪多的后果,很可能或导致我们搜集的数据杂乱不堪。数据搜集和平台搭建的初始阶段,工作人员能够先应用一种熟悉好用的分类方式方法。经过实践考证,初期比拟推荐的方式方法是上文提到的根据机构的级别和关系进行分类的方式方法。纵横双
15、层面都被考虑进去,因而涵盖的范围较为全面,数据的开放和密保工作也具有一定的伸缩性。今后在技术等因素和条件到达更高层次水平后,工作人员可根据需求灵敏选择其他类型的数据信息分类方式方法,促进大数据系统的进一步发展。 2.2.4 大数据的应用。 各个部门间的信息的资源分享是一项较为基础的工作,是进一步发展电子政务建设的关键点。大数据技术正在成为一个新兴的热门,是伴随着信息技术的发展而得到全面关注的46.因而,部门与大数据信息资源分享技术是信息资源分享与前期建设发展之间的高度互补关系,为促进大数据的发展提供了基础数据,为信息资源分享的深切进入发展提供了深切进入的指导方向47. 1财税运行分析。 根据我
16、们国家财政、国税及地税交换而来的原始数据表示清楚,计算汇总构成了包括各级别公共预算的收入情况、各级别公共预算的收入占比的情况、分级次税收收入的情况、城市建设的维护税及教育费用附加负担的情况等进行分类汇总。通过对数据的处理,综合经济运行的态势展开整体情况分析,实时跟踪的细节监测下,围绕财政税收与相关产业构造的转型完成升级、财税与经济的运行、动态等方面展开特点分析和研究课题,最终成为知足服务地方政机关领导的新兴技术手段。 2经济普查。 经济普查的全面工作包括了单位清查环节、普查数据环节、数据审核环节等其他环节。在经济普查的工作中,财税数据应用范围非常广泛,在单位清查环节时,能够通过财税数据联网的平
17、台把握的纳税情况以及工商、民政等相关部门的数据进行审核比对,应用到排查其法人单位以及相关产业的活动单位,保证了不重不漏的清查单位、同时经济普查的数据审核的上报阶段中,充分的利用了财税系统联网平台的数据对相关产业单位上报的经济普查大数据进行核实审查比对,出现相关问题及时审核落实整改,一定程度上保证了经济普查大数据的真实可靠性。全国第三次经济普查正在按部就班的开展,财税系统联网平台数据也将发挥其应有的宏大作用。 3质量控制。 近年来,秉承提高统计数据的质量为核心,依渐建立起一个多层次、全面的体系来控制质量。随着趋势、逻辑、计算等相关评估工具广泛应用于税收数据的联网平台,有效防止了数据偏差的现象。在
18、评估行业增加值增速的时候,充分参考了增长的产业和税收网络平台应纳税增长速度;贸易专业人士在评估零售销售数据,充分参考税务网络平台批发和零售贸易增长率的增值税,住宿和餐饮业增长率的销售税;建设专业人士在评估增值的数据,充分参考税务网络平台其营利服务行业增场速度;税务数据联网平台,为部门开展了强大的辅助统计数据质量控制系统。 4 四大工程 改革。 重大统计革命是以 企业一套表 为核心基础的统计系统四大工程建设,在四大工程的建设中首要任务即是建设及时更新、真实完好的单位基本名录库。 财税联网的平台数据在其维护单位基本名录库的建设的工作中发挥了核心重要作用。首先,利用税收的征缴记录呈现出新增的税源单位
19、信息,实时对纳入基本单位名录库进行核对;利用税收征缴记录反响出单位时间内无纳税相关记录的重点企业,实时核查修改及完善基本单位名录库的信息。其次,在重点服务业企业和 三上单位 审批方面,通过财税联网平台数据,对一些可能符合规下限下升规上限上的企业进行排查梳理,保证不重不漏。 5科学决策。 大量的财税联网平台数据,深度挖掘出华而不实的有价值数据能够得到很多极富价值的信息,帮助统计的部门更好的进行科学决策48.从 2020 年 8 月 1日,我们国家小、微企业的月销售总额不超 2 万元的营业税纳税人和增值税小规模纳税人能够享受暂时免征营业税和增值税的政策,在出台这一政策后,各级有关领导通都积极把握和
20、了解本地区的小、微企业的基本情况,希望了解相关小、微企业的纳税情况和减免税收政策出台后产生的积极影响等。统计部门根据财税联网平台数据,及时处理挖掘,完成了(小微企业暂免营业税和增值税对我市影响浅析报告,客观分析了等同减免税收政策的小、微企业的分布和现在状况和纳税情况,同时对下半年的免税政策执行后的收入减少进行预案和定量预测49. 2.3 大数据质量。 2.3.1 大数据质量概念。 在大数据时代,所有数据都是一笔可观的宏大财富,同时也是开启了智慧的入口。全球范围很多国家已经准备开战从长期战略层面的认识到大数据的重要性,在管理领域融入了大数据的核心思维。然而大数据在我们国家部门的深切进入开展仍处于
21、相对的初级阶段,仅有少数的项目在运营中。关于大数据的质量定义,当前还没有确定的定义,数据质量定义还是值得借鉴的50. 传统的数据质量仅仅指其准确性,通常用统计估计中的误差来衡量。但 质量 的概念被拓宽以后,关于质量的定义出发,把用户的需求作为衡量统计数据质量高低的首要因素,那么能够把数据质量定义为影响统计数据知足用户需求的特征 .但由于用户多种多样,且其对统计数据的使用目的也不一样,进而对统计数据质量的要求也不一样,因而,上述定义还不是一个具有可操作性的概念.但从这个定义出发,充分考虑不同用户的需求,能够提出一个系统而全面的具有丰富内涵的综合性概念。 大数据的质量概念能够定义为从大规模数据中提
22、取隐含的、有价值的为大数据分析辅助决策,提高管理效率,为民众提供更好的服务的高质量数据,这些数据必须具备可靠、准确、及时的特点52. 2.3.2 大数据质量内涵。 关于大数据质量评价理论,当前我们可能不得不参考普通的数据质量评价。 中国与外国的学者对于普通数据质量分析主要就是采用一系列方式方法控制质量与质量流程,并对其进行多种多样的的理论研究,再产生质量方面的评估行为。这种经过是对质量评价属于全方位,多人员参加的多个方面维度去进行配合,因而这需要不同的多种阶段的工作,主要就是以预防预测为主:根据不同的计量阶段进行分析并制定控制措施。尤其是分析出其影响经过中的数据本身质量的因素后,再点分析好从头
23、到尾这一经过中的质量水平以及整体水平,并对整体的数据质量进行归纳,得出对于此数据质量评价的共鸣53. 然而大数据的质量评价不可能好像普通数据那样依靠人员有条不紊的进行质量方面的考察,那样无论是工作量还是工作进度都无法到达大数据数量宏大、实时性的运算要求。所以,大数据的数据机制要求更是要具有科学性,从数据产生起的各个环节就要做好质量控制。与普通数据质量评价一样,大数据的评价体系的设计是特别关键的,其水平的好坏对于最终的大数据质量会产生基础性影响。如质量评价方式方法设计水平不高,即便评估体系的实践很好,构成的最终数据质量评估也不会很准确;反之质量评价体系设计水平高,只要实践应用尚可,构成的最终数据
24、质量也会比拟准确。当今经济全球化的大背景下,把大数据用于国际上各项数据已经特别普及和关键,因而国家层面的大数据质量控制方式方法也被摆到了特别重要的地位,对于其理论要求和生产的数据质量也提出了更高层次要求54.在 1990 年代后的国际货币基金组织以及其他的国际上的权威性的组织中装订,并且修改了复杂繁多的数据质量指导原则来,引来多个组织和国家的重视,进行了统一的设计制度的标准方式方法55. 和数据质量息息相关的活动有两大类:华而不实第一类是对于那些影响数据质量的各个阶段的质量进行控制。对于工作的经过的设计、组织、施行进行控制,以便于我们能够保证数据的质量,降低调查成本并提高效益。第二类活动是对于
25、数据的评估。包括有对某些特定领域数据质量的专项研究,大数据的批量数据检验,以及就内、外部环境的数据质量分析评估。其最终的评估结果可提供应数据产生者以便改良其数据生产工作;另外可以以提供应给数据用户,以便使数据得到正确并且合理的开发与利用。综上所述,数据质量控制与数据质量评估是在数据质量时不可或缺的质量活动。两者在其职能中的区别主要在于,数据质量控制要涵括到数据处理工作的进行之前,进行中,以及结束后的全经过;而数据质量评估主要是在于对工作所得出的数据处理结果进行评价与分析。 我们国家当前的大数据的质量控制和评估上有下面几点问题:其一,是部门的实践同数据质量理论和控制技术不匹配56.数据质量控制技
26、术在实践操作中应用和研究不多。处理常规的数据质量控制主要用分析处理和挤水分的方式,评估前的结合实际预防和设立误差模型研判做的不好,仅有的质量控制技术和统计质量管理相脱钩57.其二,质量控制的权责不明确,往往在执行时临时调整,缺乏系统性。即便确定主要统计数据质量的评估,但对于评估方式方法的实现、责任部门、职权义务规定的都不细致58.其三,我们国家主要就是缺少了具有明确目的的数据质量管理的目的措施与质量管理的行为规范准则。 2.4 数据质量评价方式方法概述。 2.4.1 因子分析方式方法。 因子分析法的基本思想是根据相关性的大小将原始变量分组,使得同组变量之间相关性较高,不同组的变量之间相关性较低
27、。进而,每组变量便代表了一个基本构造,能够用一个潜变量来表示这个潜变量就称为潜在因子或公共因子。应用到统计数据质量评估领域,人们通常能够将统计数据的整体质量及其各个维度质量视为潜在因子华而不实整体质量为二阶因子,各个维度质量为一阶因子,并在理论分析的基础上为各个质量维度设计若干测评指标,进而通过验证性因子分析找出每个潜在因子关于全部测评指标的线性组合式,据此计算各个潜在因子在整个样本上的平均得分得出评估结论。 2.4.2 模糊综合评价法。 模糊综合评价法是一种基于 Fuzzy 数学模糊数学的评价方式方法。它是需要运用到模糊关系合成的原理,真对那些难以清楚明晰表示出的含义和概念以及难以直接定量分
28、析的情况进行综合评价的方式方法。相对于很多大数据质量而言,影响因素特别复杂,且难以用 好 和 坏 去简单定义。因而,建立目的层、因素层。运用模糊性综合评价对统计数据质量进行评估便具备了一定的理论与实践基础,是比拟适宜的。鉴于下一章的方式方法设计部分将会具体讨论这一评估方式方法,为了避免重复,此处不予赘述。 2.4.3 层次分析法。 将模糊评价法增加准则层的方式方法,我们称之为层次分析法。层次分析法需要我们把目的即决策问题根据总体目的、各层的子目的、评价准则、详细方案等方面归纳为不同的层次构造,然后用求解判定矩阵特征向量的方式,确定每一层次各元素相对上一层次某元素的优先权重,最后再加权的方式方法
29、对总目的确定权重,此权重最大者即为最优方案。 优先权重 是一种相对的量度,它表示清楚备选方案在某一特点的评价准则或子目的优越程度的相对量度,各子目的对上一层次目的的重要程度。层次分析法比拟合适于具有分层交织的复杂评价指标系统或目的值难以定量描绘叙述的决策问题。算法首先是构造判定矩阵,求出其最大特征值,然后求出对应的特征向量,进行归一化,最后得到该层次指标对于上一层相关指标的相对权重。 2.4.4 主成分分析法。 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标即主成分,华而不实每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复。这种方式方法在引进多方面变量的同时将复杂因素归结为几个主成分,使问题简单化,同时得到的结果愈加科学有效的数据信息。从基本思路来讲:主成分分析借助了一个正交变换,将原来分量相关的随机变量转换成了分量不相关的新变量,从代数角度解释为,将原变量的协方差阵转换成对角阵,从几何角度,将原变量系统变换成新的正交系统,使之指向样本点分布最开的正交方向,进而实现了多维变量系统的降维处理。使用主成分分析除了降低多变量的数据系统的维度之外,还能够提供其他很多重要的系统信息,例如数据的重心位置、数据变异的最大方向,群点的分布范围等。
限制150内