数据分析方法第一章幻灯片.ppt
《数据分析方法第一章幻灯片.ppt》由会员分享,可在线阅读,更多相关《数据分析方法第一章幻灯片.ppt(111页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据分析方法第一章数据分析方法第一章第1页,共111页,编辑于2022年,星期六1.1.1 表示位置的数字特征表示位置的数字特征1.1.2 表示分散性的数字特征表示分散性的数字特征1.1.3 表示分布形状的数字特征表示分布形状的数字特征n1.1 一维数据的数字特征一维数据的数字特征n设有一维数据:设有一维数据:x1,x2,xn是研究对象的样本观测值,是研究对象的样本观测值,数据分析的数据分析的任务任务是对样本观测值进行分析,提取数据中所是对样本观测值进行分析,提取数据中所包含的有用的信息,进一步对总体的信息做出推断;首先包含的有用的信息,进一步对总体的信息做出推断;首先用某些简单的量概括它的主
2、要信息或特征用某些简单的量概括它的主要信息或特征数字特征:数字特征:数据的集中位置、分散程度、数据分布的形状特征数据的集中位置、分散程度、数据分布的形状特征等等。等等。2第2页,共111页,编辑于2022年,星期六n n1.1.1 1.1.1 1.1.1 1.1.1 表示位置的数字特征(统计量)表示位置的数字特征(统计量)表示位置的数字特征(统计量)表示位置的数字特征(统计量)n n 如果要用简单的数字来概括一组观测数据如果要用简单的数字来概括一组观测数据x x1 1 1 1,.,x xn n n n,可以使用,可以使用,可以使用,可以使用“位置统计量位置统计量位置统计量位置统计量”来作为数据
3、的总体代表,来作为数据的总体代表,常见的位置常见的位置统计量统计量统计量统计量有:有:均值、中位数、分位数、众数均值、中位数、分位数、众数等。等。等。等。1.1.均值均值(Mean):是所有观测值的平均值,是所有观测值的平均值,是描述数据取值中心位置的一个度量是描述数据取值中心位置的一个度量:n均值能够概括反映所有各项数据的均值能够概括反映所有各项数据的平均水平平均水平。n有许多的优良的统计性质,但当数据中存在有许多的优良的统计性质,但当数据中存在异常值时,它则缺乏异常值时,它则缺乏抗扰性抗扰性(稳健性稳健性)易受异常易受异常值的影响而使其值有较大变化。值的影响而使其值有较大变化。3第3页,共
4、111页,编辑于2022年,星期六n n设设设设x x1 1,.,xn是是是是n n个观测值个观测值个观测值个观测值,它们的次序统计量为,它们的次序统计量为,它们的次序统计量为,它们的次序统计量为x x(1)1),x x(2),x x(n)n),即即即即n n x x(1)x x(2)x x(n)n)n nx x(1)1)为最小次序统计量,为最小次序统计量,为最小次序统计量,为最小次序统计量,x x(n)n)为最大次序统计量,为最大次序统计量,为最大次序统计量,为最大次序统计量,4第4页,共111页,编辑于2022年,星期六n n2.中位数(中位数(Median或或Med)表示一组数据按表示一
5、组数据按照大小的顺序排列时中间位置的数值照大小的顺序排列时中间位置的数值n n中位数中位数是描述观测值数据中心位置的统计量,是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的大体上比中位数大(小)的数据为观测值的一半。中位数的一个优点具有一半。中位数的一个优点具有稳健性稳健性。计算计算方法方法是:首先将数据从小到大排序为:是:首先将数据从小到大排序为:x(1),.,x(n),然后计算,然后计算5第5页,共111页,编辑于2022年,星期六n n3.3.分位数(分位数(PercentilePercentile)根据变量值由小到大的顺序排列根据变量值由小到大的顺序排列分割成若
6、干等分,其分界位置上的各个数值实际上是一种分割成若干等分,其分界位置上的各个数值实际上是一种分割值。分割值。n n分位数分位数分位数分位数也是描述数据分布和位置的统计量。对也是描述数据分布和位置的统计量。对也是描述数据分布和位置的统计量。对也是描述数据分布和位置的统计量。对0p1,0p1,0p1,0p1,数据数据数据数据x x1 1,.,x xn n的的的的p p p p分位数是分位数是分位数是分位数是n0.50.5分位数就是中位数,分位数就是中位数,0.750.75分位数和分位数和0.250.25分位数又分分位数又分别称为上、下四分位数,并分别记为别称为上、下四分位数,并分别记为QQ3 3=
7、M=M0.750.75和和QQ1 1 =M=M0.250.25 。4.4.三均值三均值 n各数字特征从不同侧重点反映了数据的位置特征,各数字特征从不同侧重点反映了数据的位置特征,结合应用可以研究数据某些更本质的特性,如利用中位数结合应用可以研究数据某些更本质的特性,如利用中位数与各分位数可以考察数据的对称性与各分位数可以考察数据的对称性6第6页,共111页,编辑于2022年,星期六n n设数据是总体设数据是总体设数据是总体设数据是总体X X X X的样本,总体的分布函数是的样本,总体的分布函数是的样本,总体的分布函数是的样本,总体的分布函数是F(x x),),设总体的均值设总体的均值设总体的均
8、值设总体的均值为为为为=E(X)=E(X),由大数定律,当,由大数定律,当,由大数定律,当,由大数定律,当n n较大时,样本均值可以作为总体均较大时,样本均值可以作为总体均较大时,样本均值可以作为总体均较大时,样本均值可以作为总体均值的估计:值的估计:值的估计:值的估计:设总体分布设总体分布F(x)是连续分布是连续分布,0p1,称满足称满足的的p为总体分布为总体分布F(x)的的p分位数,分位数,当总体当总体p分位数为分位数为唯一的情况时,在一定条件下,样本的唯一的情况时,在一定条件下,样本的p分位数分位数M p是总体分位数是总体分位数p相合估计,即当相合估计,即当n充分大时,充分大时,p M
9、p 7第7页,共111页,编辑于2022年,星期六n n1.1.2 1.1.2 表示分散性的数字特征表示分散性的数字特征表示分散性的数字特征表示分散性的数字特征n n1.1.1.1.方差方差方差方差(Variance(Variance(Variance(Variance或或或或Var)Var)Var)Var):是由各观测值到均值距离的平是由各观测值到均值距离的平方和除以观测量组数减方和除以观测量组数减1 1,是数据对于均值的偏差平,是数据对于均值的偏差平方和的平均,方差的量纲是原变量的平方;方和的平均,方差的量纲是原变量的平方;n n方差的开方称为方差的开方称为标准差标准差标准差标准差(Sta
10、ndard deviation(Standard deviation或或或或Std Dev):Std Dev):n n标准差的量纲与原变量一致。标准差的量纲与原变量一致。标准差的量纲与原变量一致。标准差的量纲与原变量一致。8第8页,共111页,编辑于2022年,星期六n n变异系数(变异系数(Coefficient of Variation或或CV):是将标准是将标准差表示为均值的百分数,是观测数据相对分散性的一差表示为均值的百分数,是观测数据相对分散性的一个度量,它在比较用不同单位测量的数据的分散性时个度量,它在比较用不同单位测量的数据的分散性时是有用的是有用的,无量纲量:无量纲量:变异系数
11、的值越大,说明数据集变异系数的值越大,说明数据集变异系数的值越大,说明数据集变异系数的值越大,说明数据集中相对于均值的变化就越大。中相对于均值的变化就越大。中相对于均值的变化就越大。中相对于均值的变化就越大。2.极差(极差(Range)与半极差()与半极差(Interquartile range)极差就是数据中的最大值和最小值之间的差:极差就是数据中的最大值和最小值之间的差:极差极差=x(n)-x(1)=maxxi minxi上上、下下四四分分位位数数之之差差R R3 3=Q=Q3 3 QQ1 1称称为为四四分分位位极极差差或或半半极极差差,它它描描述述了了中中间间半半数数观观测测值值的的散散
12、布布情情况况,具具有有抗抗扰扰性性稳稳健健性性;极极差差有有许许多多特特殊殊的的应应用用,如如质质量量控控制制图图中的极差图,提供证券市场行情等。中的极差图,提供证券市场行情等。9第9页,共111页,编辑于2022年,星期六 设数据是总体设数据是总体设数据是总体设数据是总体X的样本,则数据的方差的样本,则数据的方差的样本,则数据的方差的样本,则数据的方差s s2 2、标准差、标准差、标准差、标准差s s、变异、变异、变异、变异系数系数系数系数CVCV分别是总体方差分别是总体方差分别是总体方差分别是总体方差 2=Var(X)=Var(X)、总体标准差、总体标准差、总体标准差、总体标准差、总体变、
13、总体变、总体变、总体变异系数异系数异系数异系数r=/r=/的相合估计:即当样本容量的相合估计:即当样本容量的相合估计:即当样本容量的相合估计:即当样本容量n n充分大时,有充分大时,有充分大时,有充分大时,有 2 2 s2,s,rCV,s,rCV 正态总体正态总体正态总体正态总体N(,(,2)的上、下四位数分别为的上、下四位数分别为 0.750.75=+0.6745,=+0.6745,0.25=-0.6745 总体的总体的四分位极差四分位极差四分位极差四分位极差为为为为r r r r1 1=0.750.75-0.25=1.349,=1.349,则有则有则有则有 =r r r r1 1 1 1/
14、1.349 总体标准差总体标准差的一个抗扰性的估计的一个抗扰性的估计四分位数标准四分位数标准差:差:10第10页,共111页,编辑于2022年,星期六 3 3.上、下截断点上、下截断点:用来用来用来用来判断异常值判断异常值的简便方法:的简便方法:的简便方法:的简便方法:Q3+1.5 R1 1 ,QQ1 1-1.5 R1 1n n大于上截断点的数据为特大值,小于下截断点的数据为大于上截断点的数据为特大值,小于下截断点的数据为大于上截断点的数据为特大值,小于下截断点的数据为大于上截断点的数据为特大值,小于下截断点的数据为特小值,都视为异常值。特小值,都视为异常值。特小值,都视为异常值。特小值,都视
15、为异常值。n n 总体为总体为总体为总体为正态分布正态分布NN(,(,2)时,上、下截断点分别为时,上、下截断点分别为n n 0.75 0.75+1.5 r+1.5 r1 =-2.698,=-2.698,n n 0.25 0.25-1.5 r1 =-2.698=-2.698 n n数据落在上、下截断点之外的概率为数据落在上、下截断点之外的概率为数据落在上、下截断点之外的概率为数据落在上、下截断点之外的概率为0.00698,0.00698,即对容量即对容量即对容量即对容量n n较较较较大的数据,异常值的比率约为大的数据,异常值的比率约为大的数据,异常值的比率约为大的数据,异常值的比率约为0.00
16、6980.0069811第11页,共111页,编辑于2022年,星期六n n1.1.3 1.1.3 表示数据分布形状的统计量表示数据分布形状的统计量表示数据分布形状的统计量表示数据分布形状的统计量n n 偏度和峰度偏度和峰度偏度和峰度偏度和峰度是描述数据分布形状的指标。是描述数据分布形状的指标。是描述数据分布形状的指标。是描述数据分布形状的指标。n n1.1.偏度(偏度(偏度(偏度(skewnessskewness):偏度是刻画数据对称性的指标。偏偏度是刻画数据对称性的指标。偏偏度是刻画数据对称性的指标。偏偏度是刻画数据对称性的指标。偏度的计算公式为:度的计算公式为:度的计算公式为:度的计算公
17、式为:n n关于均值对称的数据其偏度为关于均值对称的数据其偏度为g1=0;n n左侧更为分散的数据,其偏度为负(左侧更为分散的数据,其偏度为负(g10),称为右偏。称为右偏。12第12页,共111页,编辑于2022年,星期六n n2.2.峰度峰度kurtosiskurtosis:峰度描述数据向分布尾端散布峰度描述数据向分布尾端散布的趋势的趋势 n n利用峰度研究数据分布的形状是以正态分布为标准(假定利用峰度研究数据分布的形状是以正态分布为标准(假定利用峰度研究数据分布的形状是以正态分布为标准(假定利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极
18、端正态分布的方差与所研究分布的方差相等)比较两端极端正态分布的方差与所研究分布的方差相等)比较两端极端正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若数据的分布情况,若数据的分布情况,若数据的分布情况,若1 1 近似于标准正态分布,则近似于标准正态分布,则峰度接近于零;峰度接近于零;2 2 尾部较正态分布更分散,则尾部较正态分布更分散,则峰度为正,称为轻尾;峰度为正,称为轻尾;3 3 尾部较正态分布更集中,则尾部较正态分布更集中,则峰度为负,称为厚尾。峰度为负,称为厚尾。13第13页,共111页,编辑于2022年,星期六14第14页,共111页,编辑于2022年,星期六n
19、n 设设设设x x1 1,.,x xn n是总体是总体是总体是总体X X的样本,的样本,的样本,的样本,3 3、4分别表示总体分别表示总体分别表示总体分别表示总体X X的的的的3 3、4 4阶中心矩,即阶中心矩,即阶中心矩,即阶中心矩,即 3 3=E(X-X-)3 3,4 4=E=E(X-X-)3 3其中其中=E(X X),则,则,则,则 总体偏度为总体偏度为总体偏度为总体偏度为:G:G 1 1=3 3/3 3 总体峰度为总体峰度为总体峰度为总体峰度为:G:G 2 2=(=(4 4/4 4)-3且数据的偏度且数据的偏度且数据的偏度且数据的偏度g g1 1和峰度和峰度和峰度和峰度g g2分别是总
20、体偏度分别是总体偏度分别是总体偏度分别是总体偏度G G 1 1和总体峰度和总体峰度和总体峰度和总体峰度G G 2 的的的的相合估计,即当相合估计,即当相合估计,即当相合估计,即当n n充分大时,有充分大时,有充分大时,有充分大时,有 G G 1 g1 1 ,G G 2 2 g2 2总体偏度是总体偏度是度量总体分布是否偏向某一侧的指标;度量总体分布是否偏向某一侧的指标;度量总体分布是否偏向某一侧的指标;度量总体分布是否偏向某一侧的指标;总体峰度是总体峰度是以同方斋戒的正态分布为标准,比较总体分布以同方斋戒的正态分布为标准,比较总体分布尾部分散性的指标;结论与数据偏度与峰度相同尾部分散性的指标;结
21、论与数据偏度与峰度相同15第15页,共111页,编辑于2022年,星期六n n在在SASSAS中计算一维数据的数字特征中计算一维数据的数字特征n n1 PROC MEANS过程过程n n2 PROC UNIVARIATE过程过程16第16页,共111页,编辑于2022年,星期六n n1.1.1.1.MEANSMEANS过程过程过程过程n n(1)MEANS过程的一般格式:过程的一般格式:n nPROC MEANS 选择项选择项 统计量关键字列表统计量关键字列表;n nVAR 变量表变量表;要分析的变量名列要分析的变量名列要分析的变量名列要分析的变量名列n nBY 变量表变量表;按变量名列分组统
22、计,按变量名列分组统计,按变量名列分组统计,按变量名列分组统计,n n 要求数据集已按变量名列排序要求数据集已按变量名列排序要求数据集已按变量名列排序要求数据集已按变量名列排序n nCLASS 变量表变量表;按变量名列分组统计,不要求数据集排序按变量名列分组统计,不要求数据集排序按变量名列分组统计,不要求数据集排序按变量名列分组统计,不要求数据集排序n nFREQ FREQ 变量表变量表变量表变量表;表明该变量为分析变量的频数表明该变量为分析变量的频数n nWEIGHT WEIGHT 变量表变量表变量表变量表;表明分析变量在统计时要按该变量权重表明分析变量在统计时要按该变量权重表明分析变量在统
23、计时要按该变量权重表明分析变量在统计时要按该变量权重n nID 变量表变量表;输出时加上该变量作为索引输出时加上该变量作为索引输出时加上该变量作为索引输出时加上该变量作为索引n nOUTPUT OUT=数据集数据集 统计关键字统计关键字=变量名变量名;n n 指定统计量的输出数据集名指定统计量的输出数据集名指定统计量的输出数据集名指定统计量的输出数据集名n n关键字关键字关键字关键字=.;.;指定统计量对应的新变量名指定统计量对应的新变量名指定统计量对应的新变量名指定统计量对应的新变量名 17第17页,共111页,编辑于2022年,星期六n n二、选择项说明二、选择项说明二、选择项说明二、选择
24、项说明 n nDATA=SASDATA=SAS数据集数据集数据集数据集 将计算出的统计量输出到一个数据集。将计算出的统计量输出到一个数据集。所有所有PROC MEANSPROC MEANS语句中可用统计量均可在此指定。语句中可用统计量均可在此指定。n nNOPRINT NOPRINT 说明不输出任何描述性统计值。说明不输出任何描述性统计值。说明不输出任何描述性统计值。说明不输出任何描述性统计值。n nMAXDEC=n MAXDEC=n 指出指出指出指出MEANSMEANSMEANSMEANS用于输出结果的最大小数位(用于输出结果的最大小数位(用于输出结果的最大小数位(用于输出结果的最大小数位(
25、0 0 0 0),缺省值为,缺省值为,缺省值为,缺省值为7 7 7 7。n nFW=n FW=n n n n n为输出统计量时的字段宽度,缺省值为为输出统计量时的字段宽度,缺省值为为输出统计量时的字段宽度,缺省值为为输出统计量时的字段宽度,缺省值为12121212。n nVARDEF=N|DF|WGT|WDF VARDEF=N|DF|WGT|WDF 指定方差计算所用的分母。指定方差计算所用的分母。指定方差计算所用的分母。指定方差计算所用的分母。N表示观察值的总数表示观察值的总数表示观察值的总数表示观察值的总数;WGTWGT表示权重和表示权重和表示权重和表示权重和WDFWDF表示权重和减表示权重
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 方法 第一章 幻灯片
限制150内