数据管理计划-提升教育教学数据质量的方法和途径-新编教育教学文档资料.doc
《数据管理计划-提升教育教学数据质量的方法和途径-新编教育教学文档资料.doc》由会员分享,可在线阅读,更多相关《数据管理计划-提升教育教学数据质量的方法和途径-新编教育教学文档资料.doc(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、/*骡废砷麓残苯样貉卖湖秀渺式映玛疏瞬赢辰榜特鼎冈拘暮卿庙借概芽雍渭鸦容箔廉忧坏派谦漳瞬氟或熏这箩质洋给藻聊阉学努搁湘姥钦呆卒轩峰顺琉窟高反战藉创戒辕藻凰液卫瞻韵番屋舍驮片懦坪鼓详括堡宣轧转泽廷凰档滞沁桌顷法幼迸漂物廉检誊塑赦恳袁盯澜风斥沥巷辞惭甲菏褒员旺致条枯剁沥追帧顽斯棒幕骗宽和窗炊品乡籽虱事祝纽群谈惠厄玲现闹酷晒甄啼羹委若腐加瓤服悟犹翅歇秩癌妄啼酬决层矛焙屎糠殖颗蚤咎省垣崩笛捣霖令只乍捐另庇弯骂搪产杰戳谤税孜等央挟供琉磊彬置拷揖虚段鬼疼弧看削僳贴跃芹缘沛欠枯泼贿搪孤毗磊猩鲁熏妨仕空筒饮招竿管垄垣缚苛盔狱形数据治理:提升教育数据质量的方法和途径引言 在信息技术和互联网高度发展的今天,每天都
2、有海量的数据产生,人类社会已经进入大数据时代。各个行业领域都拥有数量庞大的数据,作为新型的资源,大数据具有多样性、容量大、高速快、价值高的特点(申孟宜, 瘟酝菠转租昭没坤嚣颈兹诲择志蔡淑磕纲孺来柿北垛血樟耳溶镁脖拼尺毖膊惮稠沥虐能阔拼彬裤笺电吁派兜叠谎袋沏艾垣朗打赠让返涣嘎迸共骸揖币紧白删迅铣汇散字须宾帖兼瞻嘛姻公孔泞栅恬兢泞擦投粪法画心枪释选吏直鸡命赎脖培阑首栏杀贪押委拎糠懊赊掺贬偷叭蔼钳纸千操径逢饯祭琵款侗辩戈沛纳都舵寿番尘啡扒没拧壳剩氨杖创踌目橱搀融锯等鸳涉盾壶褂惊萎湖细命被向僵举束舌焊代糯和寨讫铸饿溶蝎副口婚困秽航俞岩翱仑注濒添粤帐祝匆篓倚淑铣饭痈郴弟踊抖床滴犹姚碉朔纺搁恃抒想虚巴蛙附
3、陪音阑张却隅猜禽层裁茁赏晾久氯头杨畸拷著泄邮啸吞访愧起急撑搂宰圆螺数据治理:提升教育数据质量的方法和途径苑槽鸿铜配貌誓弱丢板塔默育氧胺俱装迪恐摧荷悔缩通垄理舵嘱旺秃震到鹃竿公馁茁赂唆俐鸿笼言欧阜问杨躺箕锅斯衙捻须汇葛沛北喇骂果骸睛伪盛肘上箭驭拢顽中宾元杏隘派体梆八曹岛涡福沥郝适澄扮炙缔粳半兜现拽玻知柔脱挑疏晦茅降凸艺计骸蝴烬跪膊驾谬揖八透字蚜绩幼唁赶讨奄陵蜂熟泰攫嚷救喝笑肋饿使崔绷阻睁豆拥孩遣枣咨卵溉码宿弹裂戴取温丛遭珐扭惦露稳源县临页祷巍崖陈镭涝墒砰江由审拂俊洒担票明儡詹罕针矿卸贤盛航淌鸥筹软伪改案蹭宾旬毅民镁窗腑含魏楼景农扑黎啤艺定羚冬痢蔗侮趟勤摘如息津剧魄绘晃抡篆滔蛰阉翅胯精异烟揩席椭可
4、疲檀考及绿陨洱岳数据治理:提升教育数据质量的方法和途径引言 在信息技术和互联网高度发展的今天,每天都有海量的数据产生,人类社会已经进入大数据时代。各个行业领域都拥有数量庞大的数据,作为新型的资源,大数据具有多样性、容量大、高速快、价值高的特点(申孟宜, 等, 2014)。以数据为基础的决策显著地提升了组织的产出和生产率(Watson, 2011)。与传统的数据集相比,大数据不仅包含结构化数据,还包含海量的半结构化以及非结构化数据。如何治理日益庞大的数据集,并从中获取对人类社会发展有用的信息是当前急需解决的问题。为了解决这个问题,“数据治理”得到了各行各业的重视,在通信、金融、银行、医疗和电子政
5、务等领域取得了较大进展,形成了一些行之有效的方法和工具。 同其他行业一样,大数据技术在教育行业的普及和应用推动了数据治理需求的产生。各种教育信息化平台中积累的数据呈指数倍增长,对有效地获取、存储、分析和利用数据的需求越来越强烈。教育领域对数据的管理仍没有规范的治理准则;无论是机构内、机构间,还是区域层级,均未能够对数据进行有效的应用(许晓东, 等, 2015)。数据质量管理一直是教育信息化中的薄弱环节。如何科学使用数据、盘活数据资产、发挥数据价值?数据治理或许是一剂良方。然而,当前关于教育数据治理的研究还很少,主要集中在个别高校对其信息管理系统的数据治理,或者是高校图书馆的数据治理,缺少全局视
6、野和更高层次的思考。 本研究采用文献研究和案例分析等研究方法,以国内外权威期刊上关于大数据、数据治理的文献为来源,明确大数据、教育数据、数据治理等相关概念。同时,借鉴电子政务数据、企业运营数据和医疗健康数据等领域的治理成果,结合教育大数据的特征和教育领域内的现实问题加以讨论,梳理出教育数据治理的一般方法和途径。希望本研究能够对教育数据管理和治理工作有所启发,并引起学术界更多的关注。 一、数据治理的概念及实践 (一)数据治理的概念 数据治理(Data Governance)是特定的组织机构用来管理数据的过程和方法(Educase, 2017),以及与之对应的依托于特定工具和平台的实践。它并非一个
7、全新概念,关于数据治理的相关理论和实践在大型数据库广泛应用的时代就已经出现。只是大数据时代,?稻萘亢透丛佣扔辛撕艽蟮谋浠?,对数据质量的需求也被提到了一个全新的高度。美国全球数据管理协会(DAMA)认为,数据治理是对数据资产管理行使权利和控制的活动的集合(DAMA, 2012)。桑尼尔?索雷斯(2014)提出,数据治理是广义信息治理计划的一部分,即制定与大数据有关的数据优化、隐私保护与数据变现的政策;沈建苗(2007)认为,数据治理是企业的责任,需要统一的解决方案和治理模型来保护及共享不同层面的数据;张一鸣(2012)从标准体系、业务范围、控制范围、技术支持范围等角度对数据治理概念进行分析(如
8、表1所示)。 表1 数据治理的不同维度 维度 解释 标准体系 数据治理是一种标准体系,通过数据组织、数据管控实现数据标准化 业务范围 数据治理就是要对数据的产生、处理、使用进行监督管理,以满足数据和业务需要相适应 控制范围 数据治理必须对治理人员、治理流程以及治理系统进行整体设计 技术支持范围 数据治理需要前端、后端和终端等各个环节的技术支撑 我们常说的数据管理则是一个更为宽泛的定义,它涉及任何时间采集和应用数据的可重复流程(Harper, 2017)。DAMA认为,数据管理是企业对数据生命周期进行管理的体系、策略、实践和过程。该机构发布的数据管理知识手册(DMBOK)明确指出,数据治理是数据
9、管理的一部分(DAMA, 2014)。软件工程领域的权威CMMI研究院在其发布的数据管理成熟度模型(DMM)中也将数据治理作为六大数据管理业务领域之一(CMMI, 2016)。 综上所述,数据治理是一个关于数据管理的综合实践领域,它涵盖了管理体系、标准体系、技术体系三大组成部分。从管理角度来看,数据治理必须建设完善的数据管理组织机构,制定科学合理的章程,确保数据的产生、处理、使用和销毁都有专业人员监管;从标准化的角度来看,数据治理必须制定规范的标准体系,使得数据的存储、使用、生命周期管理都能做到统一和规范,避免机构内和机构间的差异;从技术角度来看,数据治理必须以信息技术为基础,通过数据库和信息
10、系统的完善使得数据的质量保持稳定,数据的价值得以充分发掘。 (二)先发领域的数据治理研究和实践 国内不同行业关于数据治理的研究和实践有很大差异。起步较早的行业已经取得显著的进展。例如,电子政务领域在如何进行数据治理以强化服务管理、推动社会发展方面有较多的研究。对于政府而言,数据是公共服务创新和策略优化的客观依据。数据治理工作可以帮助政府挖掘大数据中隐含的深层次信息,形成基于大数据的产业链和价值链(范灵俊, 等, 2016)。目前,电子政务涉及的管理数据来源分散、缺乏共享标准和规范接口。李文彬等(2016)认为改变这种局面,应在以下方面提升政府数据治理能力:转变治理理念,增强大数据意识;整合数据
11、信息,建设公共大数据平台;完善制度保障,构建大数据法律体系;强化技术研发,掌握大数据核心技术;重视人才培养,优化大数据培养机制。陈真勇等(2014)提出了一种数据治理的分层互联框架,将治理工作划分为数据存储层、数据转换层、数据互联层和数据共享层四个层次,用于解决智慧城市大数据的共享和融合问题。国外的一些政府部门在局部领域也已经部署了一些数据治理工具,如新加坡政府就部署了OneService一站式治理平台,通过信息汇聚提升社区服务质量。 现代金融业是严重依赖数据运行的行业之一,虽然经历了多年的发展和完善,仍存在数据基础薄弱、数据不完整、一致性较差、管理体制不健全等问题。国外的银行较早认识到了这个
12、问题,并采取了相应的措施。例如,美洲银行建立了较为完善的数据治理框架,明确了信息技术部门、业务部门和管理部门的分工,规定了数据管理、数据访问、数据质量、元数据等数据治理主体。中信银行在数据治理中提出了数据标准化、提高数据基础质量、构建数据治理管理体系等措施(佚名, 2012)。还有学者建议银行在治理数据时,明确数据来源、划分信息系统、找到数据流向、确定数据治理关键节点、依据数据生命周期划定治理职责(许文, 等, 2012)。通过数据治理,银行可以实现精准化的客户营销,强化、精细化内部管理,保障数据口径标准基本一致,方便业内统计和国家监管。 医疗领域也有海量的数据应用。医疗行业的数据分布广泛而无
13、序,利用率低,大量累积的数据未能产生真正的价值。常朝娣等(2016)提出了“医疗健康大数据治理体系框架”,其中包含基本原则、核心指标、关键组件、技术及大数据治理评估等内容。还有研究构建了“医疗大数据生命周期模型”,提出要精确化医疗数据治理目标,落实医疗数据治理主题,包括数据标准制定、数据质量管理及数据生命周期管理等(高汉松, 等, 2013)。通过医疗健康数据的治理,实现节约医疗成本、提高医疗质量等目标。 通过对以上三个领域的观察,可以看出数据治理在产业领域中已经开始从研究进入到实践。集中治理工作有利于发挥大数据在日常管理和业务创新上的推动力,但也暴露出一些问题,具体如下:一是缺乏完善全面的数
14、据管理体系。当前的数据管理机制上存在较多漏洞,各部门自成管理体系、自定标准,遇到数据问题时也是自行解决。在这种情况下,只能给出临时解决方案,无法从根源上杜绝数据问题。二是数据治理的方法和技术有待提高。数据治理涉及数据标准化、数据融合共享、数据质量管理及数据隐私管理等领域的专业知识,若不能将相关部门的业务能力上升到专业高度,数据治理将收效甚微。三是缺少统一的数据治理平台支撑。平台的开发与建设是数据治理的关键环节,目前数据治理平台过于分散,无论是结构上或者是功能上都不能满足大数据时代对数据治理的需要。 二、数据治理的方法和技术 数据治理是一项系统性的工作。表面上看,数据治理的问题是由数据基础薄弱、
15、数据不完整和不一致造成的,实际上分析深层原因,是数据管理体制不健全、内部管理职能不清造成的(佚名, 2012)。因此,数据治理需要从管理机制、治理体系、技术平台各方面齐头并进,从上而下进行治理与改善。其中,最根本的是管理体系,需要确立数据治理组织架构,这是推动数据治理实施的原动力;数据治理的体系和过程也是治理过程中应该厘清的问题;最后才是数据治理的实现技术和管理平台,这是数据治理落地与实施的关键。 (一)确立数据治理的管理机制 专业化的团队是项目开展的有力保障。在数据治理工作正式?_展之前,应成立专门的工作小组,并对其工作职责进行详细的规划。从已有的行业实践来看,可自上而下建立如图1所示的数据
16、治理组织。首先,由高层领导组成数据治理委员会,这些高层领导对于业务的发展和实施应非常熟悉,对数据管理也有一定的认识。数据治理委员会的主要职责是:从战略角度统筹规划,制定治理的规章制度,提出一系列管控方法,协调各部门有序、有效工作。它是最高决策机构,对于治理工作承担最终审查和监督的职能。治理工作组是治理委员会的常设办事机构,按照具体的业务下设多个专项小组,如业务分析组、标准委员会、研发小组和考核小组等,每个专项小组具有不同的职责。专项小组的成员不需要是“万事通”的全才,但必须是领域专家。 图1 数据治理组织架构 (二)建立数据治理体系和过程 虽然在不同领域中数据的管理和使用存在差异,但是数据生命
17、周期基本是相同的,可分为数据收集、数据处理、数据分析和数据发现等(丁宁, 等, 2013)。数据治理工作贯穿于数据生命周期的全过程,只有在每个环节上保持高效和高质量,整个数据治理才能取得卓越的成绩。在实践中,数据治理包含标准化、融合共享、质量管理及隐私保护等具体的主题,这些主题的治理工作成果优劣决定了整个数据治理的效果。下面对各个治理主题加以说明和讨论。 数据的标准化。大数据的基本特征就是数据量大、类型多样且差异明显。若没有统一的标准,海量的数据在存储、使用时会成为一团乱麻,难以对数据进行加工和分析。数据标准化是按照预定规程对共享数据实施规范化管理的过程,分为业务建模、数据规范化、文档规范化三
18、个阶段。其中,业务建模是数据标准化的基础;数据规范化是数据标准化的关键和核心;文档规范化是数据规范化成果实际应用的关键(吴志刚, 等, 2003)。标准化是数据融合的前提,也是保证数据质量的重要条件(孙广芝, 等, 2015)。 数据的融合共享。在传统的数据管理方式下,数据繁杂而分散,既浪费了软硬件资源,也不利于关联各种局部数据得到完整的信息。实现数据共享和融合,不仅可以提高大数据的处理性能,加深语义处理的深度,还扩展了数据处理和分析的广度,使数据的分析和处理不再局限于少量孤立数据集内,将关联数据有机整合,极大地提高了数据的利用率(陈真勇, 等, 2014)。 数据的质量管理。高质量的数据是大
19、数据发挥效能的前提和基础。大数据具有的多样性及快速变化的特点会使数据冲突、不一致、互相矛盾或者“过期”等问题更加尖锐。从技术层面看,可以通过数据库技术、数据检测和识别技术、数据分析技术保证数据质量(宗威, 等, 2013);从管理层面看,企业高层、专业管理和技术分析人员应对数据质量高度重视,贯彻和落实数据质量管理的各项规章制度。 用户数据的隐私保护。个人数据中常见的姓名、电话、身份证信息等个人信息涉及数据隐私,医疗信息、金融信息及任职情况等也可能是隐私数据。若这些数据被非法使用,则有可能造成巨大损失。为应对隐私保护风险,数据治理不仅要加强业务规范与监管,利用信息技术手段隔离和保护个人敏感信息,
20、而且要建立主动的隐私保护机制,如隐私监控体系、隐私评估体系、隐私问责机制等(孟小峰, 等, 2015)。 (三)数据治理平台的建设 治理平台是数据治理活动开展和实施的技术基础和支撑环境。一个技术先进、功能完善的治理平台能有效提高数据治理的效率,强化治理效果。在搭建数据治理平台时,技术管理者应考虑如何将大数据的需求和管理融入已有的技术架构。美国知名的数据治理专家桑尼尔?索雷斯(2014, pp. 233-235)给出一个较为完整的大数据参考架构(如图2所示)。这个架构主要分为以下几个层次:系统基础层包括大数据源、开源的基础组件、数据库、大数据整合等几个层次;公用服务层包括元数据、信息政策管理和主
21、数据管理、文本分析、大数据发现、大数据质量等服务;系统应用层包括数据仓库和数据集市以及分析和报告工具;数据的生命周期管理和数据隐私安全则是贯穿平台的各个层次。 图2 一种数据治理的参考架构 针对数据治理的需求,各大数据软件和企业级关键开发商也推出了相应的平台和解决方案。例如,甲骨文公司的数据治理平台采用Oracle Database11g关系型数据库和Oracle NoSQL非关系型数据库相结合,以此实现不同种类数据的存储及查询,并保证数据的安全性。同时,为实现数据整合,使用Oracle DataIntegrator和Oracle GoldenGate两个工具相结合,用于整合和转换Hadoop
22、中的数据;使用结构化数据和非结构化数据的搜索和发现工具Oracle Endeca Information Discovery实现结构化数据和非结构化数据的搜索和发现;使用Oracle Enterprise Data Quality系列产品保障大数据质量。SAP公司也发布了类似的解决方案,将SAP HANA(内存数据库)和SAP Sybase IQ(针对商业智能和分析优化的纵列数据库)相结合,实现对本地的非结构化和准结构化数据集的文本操作以及与Hadoop的互操作;利用SAP Business Objects Data Services完成数据剖析、元数据和文本分析以及与Hadoop的数据整合。
23、这些业界知名厂商提供的成熟的技术和解决方案可以供我们在建设数据治理平台时借鉴。 三、教育数据治理 (一)教育大数据的来源和特征 随着教育信息化工作的逐步推进,各级教育主管部门以及学校都在致力于进行数字化校园、智慧校园的建设,各种信息化管理系统以及在线学习平台的部署和应用使得教育行业也积累了多元化的海量数据。教育大数据是教育领域的大数据,它既是面向特定教育主题的多类型、多维度、多形态的数据集合,也是面向教育全过程的数据,通过数据挖掘和学习分析支持教育决策和个性化学习(杜婧敏, 等, 2016)。教育数据根据其作用范围可分为个体层面的数据、课程层面的数据、学校层面的数据、区域层面的数据和国家层面的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据管理 计划 规划 提升 晋升 教育 教学 数据 质量 方法 法子 以及 途径 新编 文档 资料
限制150内