《基于R语言的社会统计分析 (6).pdf》由会员分享,可在线阅读,更多相关《基于R语言的社会统计分析 (6).pdf(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三讲:基于R语言的探索性数据分析Exploratory Data Analysis Using R注:本周内容参考Exploratory Data Analysis with RRoger D.PengThis book is for sale at http:/ version was published on 2015-11-121.What is Exploratory Data analysis?什么是探索性数据分析?什么是探索性数据分析?探索性数据分析的英文是Exploratory Data Analysis,有时简称EDA。这个概念是美国统计学家John W.Tukey在他197
2、7年出版的同名书籍中提出的。Johns Hopkins大学的Roger Peng博士的比喻。John Tukey是发明箱线图的那个人。“发生在剪辑室里的事儿”The process of making the“rough cut”for a data analysis.目的:1.鉴别变量之间有趣的或者是意想不到的关系;2.检视是否有支持或者反对某项假设的证据;3.检查数据收集是否存在问题,比如缺失值和测量误差等;4.识别可能需要收集更多数据的领域等。在统计学中,EDA是指通过分析数据,来总结数据主要特征的方法。它用到的分析手段包括作图、制表和计算数值特征,但可视化方法(Visual metho
3、d)是其较为鲜明的特征。这个过程并不一定需要统计模型,EDA的主要目的是在尽量少的先验假设下,心无杂念的让数据告诉我们一切。EDA v.s.IDA探索性数据分析(EDA)并不等同于初步数据分析(Initial Data Analysis,IDA)。IDA是指较为狭义的在进行模型拟合和假设检验前,对基本假设的检查、缺失值处理和对变量的重新编码和转换等。画图的基本原则Edward Tufte(爱德华.塔夫特)的体现比较体现比较 Show comparisons体现比较实际上是所有好的科学探索的基础。针对于某一个假设的证据经常是相对于另一个竞争假设而言的。当你在说证据倾向于假设A时,你实际的意思是相
4、比于假设B,证据更倾向于假设A。一个好的科学家在面对一个科学结论或陈述时经常会问“和什么相比?”。数据图形的构建也同样遵循这个原则。你应该至少在比较两件事情。室内空气质量与儿童健康间关系的研究Johns Hopkins大学医学院所进行的一项研究。研究对象:与吸烟者同居的哮喘患儿。每个儿童都分别在基线(baseline)和6个月后接受评估。研究的目标:通过干预,增加儿童6个月内的无症状日。无症状日数量,即number of symptom-free days,应该越大越好。Huang,F.,&Kim,J.S.(2012).A Randomized Trial of Air Cleaners an
5、d a Health Coach to Improve Indoor Air Quality for Inner-City Children With Asthma and Secondhand Smoke Exposure.Pediatrics,130(Supplement 1),S33-S34.室内空气质量与儿童健康间关系的研究Huang,F.,&Kim,J.S.(2012).A Randomized Trial of Air Cleaners and a Health Coach to Improve Indoor Air Quality for Inner-City Children
6、With Asthma and Secondhand Smoke Exposure.Pediatrics,130(Supplement 1),S33-S34.体现因果、机制、解释和系体现因果、机制、解释和系统统结构结构展示你思考问题时的因果推理框架总是有益的。即使是通过精密的设计收集获得的数据,证明一件事情是导致另一件事情的原因都是困难的。但通过数据图形的手段展示你寻找原因的思考过程通常是有价值的。这种展示可能支持或否定假设,但最重要的是,他们会提出值得展开新一轮数据收集与分析以追踪的新问题。空气净化器通过怎样的机制发挥作用?背后的假设是:空气净化器可以减少空气中的悬浮颗粒。研究中的儿童与吸烟
7、者共同居住,那么室内空气中很可能有高水平的悬浮颗粒,主要来自于二手烟。因为吸入微粒可能加重哮喘症状的论点已被较好的证明,所以认为减少微粒可以改善症状的假设是有理由成立的。为了验证假设,这个研究追踪记录了PM2.5的浓度改变情况。PM2.5的浓度改变情况然而!这并不足以科学的证明我们的假设是正确的,因为也许还有我们所没有测量到的其他混淆因素使得PM2.5浓度降低且哮喘症状改善。展现多元数据展现多元数据Show multivariate data现实世界是多元的。对于你可能研究的任何问题,都会有多个可能测量的特征属性。而对数据的图形描述应该尽可能的展现多元的信息。展示多元数据的方法不计其数,这里我
8、们只举一个小小的例子,说明大意。纽约日PM10浓度和死亡数的关系从1987年到2000年纽约日PM10浓度和死亡数的关系。PM2.5的数据来自于U.S.Environmental Protection Agency;死亡数据来源于U.S.National Center for Health Statistics。事实如此?季节?季节和死亡率季节和PM10分季节重新探索PM10和死亡率的关系整合数据有时你可能需要整合所有可能的手段来讲好一个故事。这不仅仅局限于图中的点和线,还可能包括数字、词语、图像以及图表。有些人满足于传统软件所提供的功能,而实际上,我们应该寻求更加灵活的方式整合所有能带来价值
9、的资源,这正是R语言的强大之处。描述并记录证据描述并记录证据数据图形应该通过标签、比例刻度和来源被很好的记录。基本准则:在没有讲解的情况下,图形自身就能讲述一个完整的故事。内容内容!内容内容!内容内容!Content,content,content!一个图形分析展示是否能站得住脚,甚至博得众人喝彩,根本上还是取决于他们所承载的内容的质量、关联程度与完整性。这包括所提出的研究问题以及支持某个假设的证据。No amount of visualization magic or bells and whistles can make poor data,or more importantly,a poorly formed question,shine with clarity.“Starting with a good question,developing a sound approach,and only presenting information that is necessary for answering that question,is essential to every data graphic.”“从一个好的问题开始,设计一个合理的方法,只展示回答问题所需要的信息,是每个数据图制作的根本。”致技术党:
限制150内