数据的统计描述.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据的统计描述.ppt》由会员分享,可在线阅读,更多相关《数据的统计描述.ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据的统计描述1现在学习的是第1页,共46页统计描述是对观测数据进行概括、整理,使人们对其规律有个基本了解,也是进一步进行统计推断和分析的基础 第2章 数据的统计描述采用相应的统计量和绘制统计图等方式对数据进行整理 SAS系统中的MEANS和UNIVARIATE过程可以实现对数据的统计描述,2现在学习的是第2页,共46页描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 nxxx,.,21平均位置的度量1.均值niinxx113现在学习的是第3页,共46页描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 nxxx,.,21平均位置的度量2.中位数,)1()(21)(222
2、nnnxx xme为偶数时为奇数时nn其做法是先将这n个数按从小到大的顺序进行排列得到:,中位数是位于中间位置的数。)()2()1(nxxx4现在学习的是第4页,共46页描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 nxxx,.,21平均位置的度量3.众数表示观测值中出现次数最多的数值,常用 表示 om5现在学习的是第5页,共46页描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 nxxx,.,21平均位置的度量4.分位数),(,)1()(21)1(npnpnpxxxp分位数是整数不是整数npnp其中 表示 整数部分,且 。分位数表示有100%个观测值不超过 分位数
3、。故又称 分位数为第100 个百分位数,中位数即0.5分位数.0.25分位数和0.75分位数分别称为下四分位数和上四分位数,并记为 和 。npnp10 pppppp1Q3Q6现在学习的是第6页,共46页描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 nxxx,.,21平均位置的度量以上几个统计量中,均值易受极端值的影响,而众数、中位数和分位数受极端值影响较小。因而这些量在实际应用中要区别对待 7现在学习的是第7页,共46页描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 nxxx,.,21离散程度的度量 1.方差niixxns122)(112.标准差niixxns12
4、)(113.标准误(均值的标准差)nsstderr 8现在学习的是第8页,共46页描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 nxxx,.,21离散程度的度量 4.极差5.四分位距(四分位极差)6.变异系数)1()(xxRn即:minmaxxxR13QQQ(%)100 xsCV9现在学习的是第9页,共46页描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 nxxx,.,21离散程度的度量 方差是度量观测值分散程度的常用统计量,但其量纲与观测值的量纲不同,而标准差、极差及标准误的单位与观测值的量纲相同,而变异系数无量纲,因而便于不同量纲数据的分散性比较 通常在正态分
5、布的情况下,我们用统计量均值和方差来描述分布的平均位置和变异程度,而对分布未知或分布不规则的观测数据用统计量中位数和四分位距来度量其位置和变异 10现在学习的是第10页,共46页描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 nxxx,.,21分布形状的度量 1.偏度2.峰度niisxxnnng131)()2)(1()3)(2()1(3)()3)(2)(1()1(2142nnnsxxnnnnngnii其中 为标准差 s11现在学习的是第11页,共46页描述性统计量1 描述性统计及SAS相关过程设 是一组观测数据 nxxx,.,21分布形状的度量 一个分布是否对称,可通过计算偏度的
6、值进行判断:若 ,可认为分布对称;若 ,则分布右偏(正偏),即均值右侧的数据更分散;若 ,则分布左偏(负偏),即均值左侧的数据更分散。峰度是以同方差正态分布为标准,比较两侧极端数据分布情况的指标。正态分布的 ;若均值两侧极端值数据较多,则峰度为正,此时分布有一厚重的尾巴,且 ;若均值两侧的极端值较少,则 。01g01g01g02g02g02g12现在学习的是第12页,共46页MEANS过程1 描述性统计及SAS相关过程MEANS过程可用来对数值变量计算其描述性统计量,该过程除不能给出众数及分位数外,其它描述性统计量均可给出。它可以通过VAR语句指定需要分析的变量,也可通过BY语句,将变量进行分
7、组计算其统计量,在BY组内还可通过CLASS语句进一步分组。此外该过程还可进行T-检验(其检验假设为:)和总体均数的区间估计,同时还可方便地将所分析的结果保存到SAS数据集中,方便以后进一步使用。0:0H13现在学习的是第13页,共46页MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 1.格式PROC MEANS 选择项;VAR 变量表;BY 变量表;CLASS 变量表;FREQ 变量表;WEIGHT 变量;ID 变量表;OUTPUT OUT=SAS数据集 统计量关键词=变量名表必需的语句必需的语句可可选选择择语语句句14现在学习的是第14页,共46页MEANS过程
8、1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 2.语句说明 选择项 vDATA=SAS数据集名,指明进行分析的数据集名,其缺省值为最近建立的SAS数据集。vNOPRINT不打印任何描述性统计量。此选项多用在将描述性统计量输出到SAS数据集时。缺省时的规定输出描述统计量,即PRINT选项。vMAXDEC=n指定输出结果小数部分的最大位数,n的取值范围为08,缺省值为n=2vALPHA=值,指定显著性水平的值。vVARDEF=除数 指定计算方差所用的除数。除数可以用以下关键字表示:1.DF 用自由度(N-1)做除数,这是缺省设置。2.N 用观测数做除数。3.WEIGHT|WGT 用
9、权重和做除数。4.WDF 用权重和减1做除数。15现在学习的是第15页,共46页MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 2.语句说明 选择项 v统计量用关键词表示:N、mean、std、min、max、Nmiss、range、sum、var、uss、css、cv、stderr、t、prt、sumwgt、skewness、krutosis、clm、lclm、uclm等,其中前五个统计量为缺省时的值.要得到这些统计量,只需给出相关的关键词即可.这此关键词亦可用于OUTPUT语句中。clm是计算置信上限和下限;lclm计算置信下限;uclm计算置信上限。16现在学
10、习的是第16页,共46页MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 2.语句说明 VAR 变量表 规定要进行计算的数值变量及顺序。该语句缺省时,除由BY、CLASS、FREQ和WEIGHT指定的变量外,其余的数值变量均进行计算。BY 变量表 根据BY后指定的变量表形成多个观测组,然后对每组分别计算相应的统计量,不过在使用该语句之前,应对BY后面指定的变量表进行过排序。17现在学习的是第17页,共46页MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 2.语句说明 CLASS 变量表 此语句的作用与BY语句类似,其不同之处是它不要求事先对
11、CLASS的变量表进行排序,且在输出时,按CLASS变量的不同取值,以单页输出。FREQ 变量 指定其后的变量代表的是频数,此语句当数据集是频数表资料时才使用。用ID后面指定的变量表的值来标识输出的观测。ID 变量表 18现在学习的是第18页,共46页MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 2.语句说明 指定其后的变量代表权重。该变量的值应大于零,若某值小于零或缺失,则取该值为0。WEIGHT 变量 例如,设变量X,其一组观测值为 ,用WEIGHT语句规定权重变量为W,相应的值为 ,(),则加权均值 和加权方差 为:,其中除数由任选项VARDEF=确定。nx
12、xx,.,21nwww,.,210iwwxws2niiniiiwwxwx11/niiiwdxxws122/)(19现在学习的是第19页,共46页MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 2.语句说明 该语句将结果输出到某SAS数据集,其中OUT=SAS数据集指明将结果保存的数据集,若要创建永久数据集则要用两级命名。统计量关键词见选择项中的说明 OUTPUT OUT=SAS数据集 统计量关键词=变量名表 20现在学习的是第20页,共46页MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 2.语句说明 规定统计量并命名的形式有以下三种:O
13、UTPUT OUT=SAS数据集 统计量关键词=变量名表 关键词=;或关键词(变量表)=;表示输出的数据集中计算由关键词指定的 统计量,其名字仍为原变量名。前者要计算的变量和顺序由VAR语句指 定,而后者则由关键词括号中的变量表指定。关键词=名字列表;表示输出的统计量的名字为等号右边的名字列表指定,计算的变量和顺序也是由VAR语句指定。关键词(变量表)=名字列表;这结合前面两者的优点,既可控制要计算的 变量及顺序,也可按自已的要求给计算的统计量取名字。21现在学习的是第21页,共46页MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 3.例子 对120个炉钢中的SI含
14、量进行检验,得数据如下:0.86 0.78 0.83 0.84 0.77 0.84 0.81 0.84 0.81 0.81 0.80 0.81 0.79 0.74 0.82 0.78 0.82 0.78 0.81 0.80 0.81 0.74 0.87 0.780.82 0.75 0.78 0.79 0.80 0.85 0.81 0.78 0.87 0.74 0.81 0.710.77 0.88 0.78 0.82 0.77 0.76 0.78 0.85 0.77 0.73 0.77 0.780.77 0.81 0.71 0.79 0.95 0.77 0.78 0.78 0.81 0.81 0
15、.79 0.870.80 0.83 0.77 0.65 0.76 0.64 0.82 0.78 0.80 0.75 0.82 0.820.84 0.80 0.79 0.80 0.90 0.77 0.82 0.81 0.79 0.75 0.82 0.830.79 0.90 0.86 0.80 0.76 0.85 0.78 0.81 0.83 0.77 0.75 0.780.82 0.82 0.78 0.84 0.73 0.85 0.83 0.84 0.81 0.82 0.81 0.850.83 0.84 0.89 0.82 0.81 0.85 0.86 0.84 0.82 0.78 0.82 0
16、.78给出这组数据的描述统计量,样本均值,样本方差,标准差,标准误差,极差,变异系数,偏度系数,峰度系数等 22现在学习的是第22页,共46页MEANS过程1 描述性统计及SAS相关过程MEANS过程的格式及语句说明 3.例子 data stat;input x;cards;0.86 0.78 0.83 0.84 0.77 0.84 0.81 0.84 0.81 0.81 0.80 0.810.79 0.74 0.82 0.78 0.82 0.78 0.81 0.80 0.81 0.74 0.87 0.780.82 0.75 0.78 0.79 0.80 0.85 0.81 0.78 0.87
17、 0.74 0.81 0.710.77 0.88 0.78 0.82 0.77 0.76 0.78 0.85 0.77 0.73 0.77 0.780.77 0.81 0.71 0.79 0.95 0.77 0.78 0.78 0.81 0.81 0.79 0.870.80 0.83 0.77 0.65 0.76 0.64 0.82 0.78 0.80 0.75 0.82 0.820.84 0.80 0.79 0.80 0.90 0.77 0.82 0.81 0.79 0.75 0.82 0.830.79 0.90 0.86 0.80 0.76 0.85 0.78 0.81 0.83 0.77
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 统计 描述
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内