数据分析和总结.pdf
1第四章:数据分析&总结(描述性统计)图!图!图!(和一些数字图!图!图!(和一些数字)幻灯片主要由Elizabeth Newton(麻省理工学院)制作,其中一部分是由Jacqueline Telford(约翰斯霍普金斯大学)和Roy Welsch(麻省理工学院)制作。2图形的优越性“使复杂的思想能够显示得清楚、准确、有效。使复杂的思想能够显示得清楚、准确、有效。”显示数据。让你考虑实质而不是方法、图形设计或者其它的。在很小的空间中有很多的数字。使大的数据集有条理。使数据的不同部分显示得更清楚。3Charles Joseph Minard法国1864年葡萄酒出口的图形描述可登陆网址:http:/www.math.yorku.ca/SCS/Gallery/4总结分类数据频数表显示了每一类的样本数。相对频数是每一类样本占所有样本的比例条形图和餠图用来图示分类数据。帕累托图是将分类样本按从高到低排列的条形图。(QC:精华都是从大量琐碎中提炼出来的。)5游乐场普遍受欢迎的项目的饼图和条形图相对频率()相对频率()6Charles Joseph Minard用包含了法国各地的饼图显示了1864年从法国各地送往巴黎的肉的数量。可登陆网址:http:/www.math.yorku.ca/SCS/Gallery/7关于单变量数值型数据的图形散点图(对应观测数)直方图茎叶图箱图(箱和线)QQ图(正态图)8Iris数据散点图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为观测数字,纵轴为iris“Sepal W”,“Setosa”9带有观察编号的Iris数据散点图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为观测数字,纵轴为iris21。10S-Plus中运用波动函数的数据图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为观测值,左图纵轴为x值,右图纵轴为jitter(x)11序列图 对于时间序列数据,按时间顺序做数据图通常是有用的。序列图就是以时间为轴做数据图。请试用不同的方法来做出合适的数据图!请试用不同的方法来做出合适的数据图!12直方图数据:n=24 一加仑汽油所行驶的里程(汽油消耗定额)。31,13,20,21,24,25,25,27,28,40,29,30,31,23,31,32,35,28,36,37,38,40,50,17提示:条形只用于连续的数据,不用于离散的数据。给出数据分布的图形。直方图的面积表示样本比例。使用命令approx.sqrt(n)“bins”如果太多、太不光滑,或太少,太平滑(没有细节)。显示分布是:对称的还是不对称的。单峰的还是双峰的。数据中的缝隙也许显示了测量过程中的问题。很多的质量控制应用:有两种过程吗?重做检验还是伪造数据?过程中是否存在特殊性。13Iris数据的直方图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。14带密度曲线的Iris数据直方图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。15茎叶图Cum.分布函数数据:每加仑里程数茎叶计数茎叶计数和直方图一样能显示出数据的分布,但保留了更实际的数据。可以看到数据的数值模式(像40至50间的数)。每个数据值出现一个阶越(同一个数据点数值大的更高)。16Iris数据的茎叶图冒号左边的数字是保留一位小数的这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。17数值型数据的描述统计 位置测量:均值(“平均值”):中位数:位于排序样本中间的值(像分布中的0.5)。如果n为奇数,中位数如果n为偶数。0,1,2的中位数是1:n=3所以n+1=4&(n+1)/2=2(第二次值),0,1,2,3的中间值是1.5(假设数据是连续的):n=4。众数:最普遍的值。18均值还是中位数?对于数据中心的合适描述?均值:如果数据的分布是对称的,并且尾部较小(即:和位于正中的观察数据相比只占很小的比例)。中位数:如果数据分布是胖尾或者是不对称的。大部分数据相差较大的极值叫做奇异值。对均值影响很大但对中位数没太大影响。右偏和左偏(不对称)。19分位数、分位点、百分点对于一种理论分布:xp是随机变量X的p分位数的值,即P(Xxp)=p。对n维正态分布:在S-Plus中:命令qnorm(p),0p1,则输出分位点。在S-Plus中:命令pnorm(q),则输出概率。对于一个样本:排序统计是将样本值按升序排列。表示为X(1),X(n)。p分位数是指在已排好序的数据中的某一个值,p分之一的数据会小于或等于这个数据值。20正态CDF这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为x值,纵轴为pnorm(x)值。21计算样本分位数的算法1)按从小到大的顺序排列观测值。2)给定一个比例p,计算:样本规模*p=np.3)如果np不是整数,进位到下一个整数(取np的上限)并且取相应的观测值xp。4)如果np是整数k,取排序后第k和第(k+1)个数据的平均值,这个均值就是xp。课本中有另一种算法。22分位数(续)(p分位数100p百分位数)举例:数据:0,1,2,3,4,5,6=x(1),x(2),x(3),x(4),x(5),x(6),x(7)n=7Q1=ceiling(0.25*7)=2 Q1=x(2)=1=25百分位数Q2=ceiling(0.50*7)=4 Q2=x(4)=3=中值(50百分位数)Q3=ceiling(0.75*7)=6 Q3=x(6)=5=75百分位数S-Plus给出了不同的答案!计算分位数的不同方法。23离散测度(范围,差异)两组数据也许有相同的中心,但围绕中心的离散程度可能相差很大。描述差异的两种方法:1、给出将数据等分的数值。中位数是第50位百分位数。第25,50,75位百分位数称为四分点(Q1,Q2,Q3),并把数据分成四等份。最小值,最大值和三个分位数称为数据的“五点描述”。2、计算单值。例如:极差,四分位数差,方差和标准差。24离散测度(续)极差最大值最小值。四分位数差(IQR)Q3-Q1。样本方差:样本标准差:样本均值,方差和标准差与总体的均值,方差和标准差相似。25其它的离散测度和均值偏差的绝对值的样本平均值:和中位数偏差的绝对值的样本中位数:的中位数。26离散测度的计算例如:数据0,1,2,3,4,5,6=x(1),x(2),x(3),x(4),x(5),x(6),x(7)均值=(0+1+2+3+4+5+6)/7=21/7=3,最小值0,最大值6。Q1=x(2)=1=第25个百分点Q2=x(4)=3=中位数(第50个百分点)Q3=x(6)=5=第75个百分点极差最大值最小值606。IQR=Q3Q1514,s2(02+12+22+32+42+52+62)-7(32)/(7-1)=91-63/6=4.67s=sqrt(4.67)=2.1627样本方差和标准差s2和s只能用来描述对称分布的离散程度。对于不对称分布,应该用分位数给出对离散程度更细致的描述。对正态数据和大样本:50的数据值落到均值 0.67s的区间内,68的数据值落到的区间均值 1s,95的数据值落到的区间均值 2s,99.7的数据值落到的区间均值 3s。对正态分布数据:IQR(均值+0.67s)-(均值-0.67s)=1.34s28标准正态密度曲线这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为x值,纵轴为dnorm(x)值。29箱(和线)图数据描述的可视化显示(超过五个点)箱图的奇异值数据:每加仑汽油里程数 箱图的分位数IQR=Q3-Q1上界Q31.5IQR下界Q31.5IQR两条线叫做线,并且将大部分极值包含在界内。留在界外的观测值被认为可能是奇异值,用点和圈或者星号表示。30Iris数据的箱图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为iris21值。31QQ图比较样本分布和理论分布将数据排序。第i个数据值为p分位数,即p=(i-0.5)/n,0p1。课本中用i/(n+1)。(为什么不能记为i/n)?在理论分布中获得相同p分位数。例如:对于正态分布,在S-Plus中,命令qnorm(p)可输出结果。理论分位点图vs.经验分位点(分类数据)。S-Plus:plot(qnorm(1:length(y)-0.5)/n),sort(y)拟合线通过每个分布的第一和第三分位点。32Iris数据的QQ图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为标准正态分位数值,纵轴为iris21值。33正态变换数据分布可以通过多种形式表现出非正态,例如:分布可能不是钟型的,可能比正态分布胖尾,或者不是对称的。只有从对称出发才可以通过数据变换来进行修正。如果分布是正偏的数据,那么右边的尾部需要向里收缩。常见变换方法是对数变换:x log x(例如:分贝,里氏震级,蒲福风力等级);见图4.11。开方变换()提供了一种较弱的收缩作用;它常被用于(泊松)序次数据。对于负偏数据,可以用指数(ex)和平方(x2)变换。34从某一确定分布中生成的正态概率图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为标准正态分位数,纵轴为x值。35对于相同数据进行对数变换后的正态分布图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为标准正态分位数,纵轴为log(x)值。36相同数据的直方图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。37多变量数据描述当每个抽样个体中有两个或更多变量要测量时,结果得到多变量数据。如果只有两个变量需要测量,结果得到双变量数据。其中一个称为变量x,另一个称为变量y。我们可以用之前学的方法单独分析变量x或y,但这些方法不能回答x和y之间的关系问题。x和y之间的本质关系是什么(如果有的话)?关系有多强?在何种程度上可以通过其中一个变量预测另一个变量?38双变量分类数据描述双向表表格中的数字代表每种可能类别组合的频率。格、行和列的百分比可以用于计算估计分布。39关于收入和工作满意度的列百分比表40辛普森的悖论辛普森的悖论“潜在变量(不考虑的)可以改变甚至颠倒两个分类变量之间的关系!潜在变量(不考虑的)可以改变甚至颠倒两个分类变量之间的关系!”41医生的工资 在1990年和2000年的两次关于医生工资的普查中指出他们的实际收入从1990年的&97,000降到了2000年的&91,000。这里收入是按名义美元测量的(没有考虑通货膨胀)。42“剩余的故事”会怎样呢?怎样进行逻辑演绎可以说明统计的真实意义?更深层的探讨:是否有遗漏?这有一个简单的“数字”分解方法也许有帮助。43医生工资按年龄的分类统计1980 1990年龄 分数,f1 收入 分数,f2 收入45 0.5$120,000 0.3$130,000均值$90,000$88,00044结论 如果医学博士的工资按年龄分为两类:年龄小于45岁的年轻医生在医生总数中1980年占50,1990年占70。年轻的医生比年老的、更有经验的医生挣的少。通过年龄比较,医学博士的收入在两类中都会随着年龄而增长!45研究生招生的性别偏见 对于这个例子,参考Johnson和Wichern所著的Business Statistics:Decision Making with Data.Wiley,First Edition,1997。46统计的最终目标随机研究性别随机地赋给申请者!这会自动平衡在最初观测研究中不能控制的专业因素。现实性别不能被随机指定。通过比较专业准入来控制专业因素,即:研究结束后控制混杂因素。47“哪里有谎言,该死的谎言,哪里就有统计!哪里有谎言,该死的谎言,哪里就有统计!”Benjamin Disraeli48双数值变量数据的描述通过表和图,哪一个可以更清楚的看到方法A和方法B之间的关系?49标签散点图通过表格还是图能更容易的看到四个国家的文化水平测试的进步?50样本相关系数测量x和y线性相关强度的数字化统计量。性质与总体相关系数p相似。非整数。取值在-1到1之间。当且仅当点(xi,yi)落在一条直线上时才可以得到极值(r=-1是负斜率的直线,r=1是正向的直线)。如果x和y之间无线性关系则值趋近于0。见图4.15,4.16,4.17(a)(b).51相关性怎么样?这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为x值,纵轴为y值。52相关性怎么样?这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为x值,纵轴为y值。53相关性怎么样?这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为x值,纵轴为y值。54相关性和因果关系高度相关性经常被错当成是因果关系。这一结论在变量不可控的观测研究中也许是无效的。一个潜在变量也许同时影响这两个变量。一个变量可能只是有联系,而不存在因果关系。有高脂肪食谱的国家有高的癌症发病率。我们能得出它们之间的因果关系吗?在许多研究中一个常见的潜在变量是时间序列。财富和健康问题随着年龄而增加。财富引起了健康问题吗?有时找到的相关性不需要任何解释,例如,太阳黑子和经济周期。55多变量数据的图形 并列箱图 矩阵散点图 三维图 Brush and Spin plots加入动态 空间数据图56汽车数据箱图宽度代表每种的数量这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为种类值,横轴为英里数。57Iris散点图矩阵(杂色的)这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。58银河的S-PLUS参考文献。银河银河NGC7531径向速度径向速度摘要:星系数据框架记录了测量覆盖了323个点的天空区域的螺旋星系的径向速度。所有的测量都在通过原点的七个夹缝内。测量的位置由四个变量确定。论点:东、西东、西东西坐标。原点(0,0)接近银河中心,东为负向,西为正向。北、南北、南南北坐标。原点(0,0)接近银河中心,南为负向,北为正向。角角观测资料统计内的水平坐标按逆时针方向旋转的度数。径向位置径向位置和原点的距离;如国东西坐标为负,数值为负。速度速度径向速度按千米/秒测量。59银河数据这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。60银河3D图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。61地震数据这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。62地震3D图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。63时空的图形描述 在图中加入空间维使得数据可以在时空中运动可以增强时间序列的解释能力。Charles Joseph Minard(1781-1870)的名著中显示了拿破仑的军队在1812年对俄国的战争中失败的命运。相应的图表复印件可登录网址:http:/www.math.yorku.ca/SCS/Gallery/641812年6月拿破仑侵略俄国的军队规模(422,000)开始时,是用波兰-俄国边境的左侧靠近Niemen河处的粗的边代表。边的宽代表军队规模。军队到达被洗劫一空且已荒废了的莫斯科时剩下100,000人。拿破仑军队从莫斯科撤退的路线用一条黑的较细的边表示,并在边下标明了温度标度和数据。回到波兰时军队只剩下10,000人。65 Minard的图示用它的多变量数据讲述了一个丰富连贯的故事,比只有简单数字的表述更具启发性。图中有六个变量:位于二维平面。军队的运动方向。撤退期间的温度是时间的函数。军队的规模。“这可能是到现在为止做的最好的统计图示。”由Edward Tufte 著(The Visual Display ofQuantitative Information.Cheshire,CT:Graphics Press,2001,pp.40)66S-Plus中的空气数据文件矩阵散点图67图(温度,臭氧)这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为温度,纵轴为臭氧浓度。68拟合线我们经常尝试用一条拟合直线来描述双变量数据:参数(系数)a和b可以通过很多方法得到。最小二乘法是最常用的。拟合值通常表示为,残差表示为曲率和奇异值会是什么?69稳定线 将x数据三等分。找到x每一等份的中位数,并找到y中与之相应的中位数。引入三对点(xa,ya),(xb,yb),(xc,yc),并用最小二乘法对其进行拟合。或者考虑其他方式 这些可代替最小二乘法。70拟合线(臭氧温度的应用)这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为温度,纵轴为臭氧浓度。71预测和残差拟合线可以用来预测。如果我们超出x数据范围太大,得到的结果就不好。考虑内推和外推的问题。考察残差可以帮助我们了解模型和数据的拟合程度到底有多好。我们同样计算称s为残差标准差。注意用n-2是因为求解a和b需要两个自由度。72残差图1.基于拟合值2.基于解释变量3.基于其他可能的解释变量4.如果可行,基于时间我们希望这些图看起来是随机的,而不是带有模式的。奇异值和影响x的值远离拟合线对它有很大的杠杆作用。在杠杆点有较大残差的y值对拟合线有很大的影响。我们通过把有影响的点移开来比较拟合度和残差。73关于臭氧数据的带有观测数据编号的残差图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为臭氧浓度,纵轴为未拟合的残差。74基于拟合值的臭氧数据残差图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴是拟合值,纵轴是残差值。75平滑 用曲线拟合数据。将信号从噪声中分离出来。拟合值 是响应y的加权平均值。权重是预测变量x的函数。自由度反映了不平滑程度。一元线性回归,自由度为2。76plot(temperature,ozone)lines(smooth.spline(temperature,ozone,df=16.5)这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为温度值,纵轴为臭氧浓度值。77plot(temperature,ozone)lines(smooth.spline(temperature,ozone,df=6)这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为温度值,纵轴为臭氧浓度值。78时间序列图压缩vs.时间图(生产顺序)。从下向上看这是一个过程不在“统计控制”内的例子。只有当过程稳定后才可以进行通常的统计程序(例如均值,标准差,置信区间,假设检验)79时间序列数据对于同样的抽样单元,在系列的时间点上获得的数据。时间序列通常有如下成分组成。1.稳定因素2.趋势因素3.季节因素4.随机因素5.循环因素单变量时间序列xt,t=1,2,T时间序列图:Xtvs.时间80数据平滑和预测时间序列数据的两种平均方式:1.移动平均2.指数加权平均这些只有当均值是常数(过程是在统计控制下或是固定的)或者均值变化很慢时才可以使用。回归技术可以用来模拟趋势。在模型考虑季节变动以及序列数据间的相互依赖(自相关)就需要更先进的方法。81(算术)移动平均(MA)w个一系列连续的数据值(称为窗口)的平均值;时间最久的数据逐渐被剔除。窗口(w)越大,越平滑。MA预测:预测误差:均值的绝对百分比误差:(误差在课本中eqn4.12,分母是x而不是y)82指数加权移动平均运用所有的数据,但是越新的数据权重越大。0w1时是平滑常数(通常在0.2到0.3)。EWMA预测:预测误差:递推公式:解释:如果预测误差是正的(预测值低于实际值),下一个阶段的预测将向上调整预测误差的一个比例。83自相关系数对时间序列数据,被特定时间周期(延迟)分离的观察值称为延迟。在lag1的观察值中一阶自相关系数或者序列相关系数:K阶自相关系数:84S-Plus延迟图lag.plot(x)or plot(x1:(n-i),x(i+1):n)这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。85John W.Tukey(1915-2000)普林斯顿大学和贝尔实验室统计学家快速傅立叶变换的发展者之一将“bit”和“software”联合在一起“正确问题的一个近似答案比错误问题的一个精确答案更有价值。”作为“统计数学化”的一个体现,发展新的图示方法(茎叶图和箱图)来检验数据。