大数据时代统计学的重构与创新-精品文档资料.pdf
-
资源ID:71495831
资源大小:89.36KB
全文页数:4页
- 资源格式: PDF
下载积分:11.9金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
大数据时代统计学的重构与创新-精品文档资料.pdf
大数据时代统计学的重构与创新集中介绍了多位顶尖统计学家在大数据研究方面的新进展,内容涉及大数据背景下政府统计需求,统计设计,统计学理 论框架的重构,统计学利用大数据在基因学、天文学、宇宙学、流行病学、经济金融 学、生命科学和工程学等领域中的应用,以及大数据人才培养问题等。大数据大数据时代应用统计、大数据背景下现代政府治理的统计需求大数据时代的迅猛发展,在全球范围内掀起了前所未有的浪潮。对政府 统计而言,大数据采用多种数据收集方式、整合多种数据来源,并采用现代信息技术和架构高速处理及挖掘数据,有高度应用价值和决策支持功能。一方面,统计调查主体的多元具化发展趋势和电子商务等领域的迅速发展,给统计数据的生产方式带来了很大的挑战,不断冲击着政府统计管理体系与统计理 念。另一方面,计 算机技术、网络技术和空间信息技术的巨大进 步,为提高统计生产力提供了 广阔空间。海量的电子化、非结构 化数据,极大地丰富了统计数据的来源。种类繁多的“大数据”,正日益成为官方统计部门研究应用的方向。在这样的背景下,探 索大数据在政府统计中的应用,把握这一促进政府统计改革发展的机遇,对政府 统计有着划时代的意义。尽管近代统计学己经发 展了上百年,但是大数据时 代的到来依然暴露岀了统计学己有方法的缺陷,从抽样调查和设计、数据管理和存储到统计分析和计 算,海量 数据分析的需求都部分地颠覆了传统的统计方法,统计学和统计学家 是严峻的挑战。来自乔治?华盛顿大学这对GeorgeWashingtonUniversity)的胡善庆教授(JeremyS Wu)依托丰富的政府实践经历,提出了支持现代治理的统计学2.0的概念。相 对于统计学2.0,胡善庆教授称近代统计学是1.0时代,其特点是,统 计数据来自普查或随机抽样,而非随机收集的数据 是无研究价值的。赵彦云教授所做的“大数据中的统计设计”研究报告指岀,大数据是统 计与计算机的结合,统计理论方法需要在学科交叉中获得新的生命力,应 从大数据发展的现实趋势中寻找统计发展的灵感。目前深入人心的经济增长 核算就是从经济理论岀发构建的统计描述体系,而投入产岀分析也是学科交 叉发展的经典成果,因此系统数据观才是大数据统计的关键思想。考虑现代 信息技 术、互联网大数据、云计算等条件手段的变化,公共统计(政府 统 计)可以成为大数据统计发展的基础,大数据要求公共统计进 行变革,要与 互联网技术紧密结合,既讲独立也讲协同。统计科 学要从历史演化发展中汲 取营养,发掘公共统计之基础内核,求降低大数据复杂性的最佳简约统计工 具。大数据条件下的公共 统计面临着互联网云计算大数据的强势发展,应 该全面系统梳理 发展变革的要点,针对不同的发展阶段,提岀全面开展统 计设计和统计工作设计的方式方法,目前可以通过公共统计基础设计、核心设计、流程设计等方式,迎接各种发展的挑战。三、大数据分析的统计学创新研究一)大数据与生物医疗随着生物技术、医疗影像、电子健康档案等技术的快速发展,生物医 疗行业的大数据急剧膨胀,譬如核酸测序技术的发展使得基因组数据的积累 速度史无前例,也为我们充分挖掘和利用基因组数据提供了海量的信息。然而,生物医疗行业的数据通常是持 续、高增长的复杂数据,呈现分散、破 碎、信息量超大、意义尚待解析等特征,需要对其进行有效的存储、处理、查询和分析。电子病历的建设也是大数据在生物医疗行业的体现之一。哈佛大学生物统计系TianxiCai教授的研究报告“电子病历的探索研究”中首先着重介绍了电子病历提供的丰富研究资源,电子病历的数据结构,以及对电子病历数据的一般分析方法,对于多重表 型或纵向 测量研究中表型间的高度相关性等问题,提岀了高效识别表型的方法,主 要是通过知识库的自动特征提取和半监督机器 学习方法。对于半监督机器学 习设定中的未标记数据,考虑能否利用这部分信息得到一个更为有效的半监 督过程。报告中将其视为结果100%缺失,且缺失机制为一般的完全随机缺 失M i s s i ngComp 1 e t e 1 y At Random MCAR)的数据缺失问题。二)变量选择及数据降维在各种各样海量的、超高维的数据环境下,数据的获取和存储越来越容易,不同来源的数据相互融合,使得高维数据甚至超高维数据越来越普遍,比如社交媒体数据、贸易数据、基因表达 数据等,这 些数据的样本量小于甚至远远小于数据的维数。伴随着这些大数据而来的异质性、噪声积累、伪相关性和内生性等特 征使得很 多经典的统计方法都失效。高维数据分析成为当前统计 学科的一个重点研究 课题。由于高维甚至超高维数据的广泛存在 性,使得对高维数据挖掘的研究 变得比以往更为重要和迫切。名统计学家Don oho在2000年的美国数学学会的报告上指出高维数据分析对于统计学的发展既是挑战更是机遇,如何刻画高维数据结构并发 现其内在性质成为统计研究工作者面临的重大课题。高维数据具有两个常见的特征:大量维度或大量数据集,所以它也具有大 数据的特点。当前很多高维数据的研究方法都可以作为 大数据分析的参考方 法。四、大数据背景下应用统计人才的培养大数据时代对数据分析人才的市场需求越来越大,要求也越 来越高,如何培养出满足时代需求的大数据分析人才是一个新课题。原中国人民大学 常务副校长、中国人民大学调查与数据中心主任袁卫教授的特邀报告探讨了 大数据分析人才的培养模式。卫教授指出,大数据分析硕士培养协同创新平台致力于培养高层 次的数据分 析师,对计算机技能、编程技能、大数据挖掘和统计 建模技能、业务和管理 技能都提出了很高的要求。这面临两个方 面的挑战:一个是大数据分析人 才是交叉学科人才,除了要掌握 统计学科的统计建模、数据挖掘等技能外,还需具备计算机学科 及应用领域的相关知识背景,即学科交叉;其次是要培 养大数据 分析应用型人才大数据采集、管理、分析、决策的综合能力,需要政企产学研等多部门协同培养,即培养过程交叉。这两个交叉决定必须协同创新。大数据分析的本质是如何架构大数据环境来管理、存储和提取数据,及如何根据“在线”和“实时”等模式 从数据中发掘价值。