统计软件基础课件.ppt
《统计软件基础课件.ppt》由会员分享,可在线阅读,更多相关《统计软件基础课件.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计软件基础统计软件基础2022/10/101第1页,此课件共56页哦描述统计概述描述统计概述描述统计概述描述统计概述在对数据进行深入加工之前,应该对数据有所印象。可以借助于图在对数据进行深入加工之前,应该对数据有所印象。可以借助于图形和简单的运算,来了解数据的一些特征。形和简单的运算,来了解数据的一些特征。由于数据是从总体中产生的,其特征也反映了总体的特征。对由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。数据的描述也是对其总体的一个近似的描述。大量的数字既繁琐又不直观;我们可以用大量的数字既繁琐又不直观;我们可以用“平均平均”,“差距差距”或百
2、分比等来概括大量数字。或百分比等来概括大量数字。由于定性变量主要是计数,比较简单,常用的概括就是比例或由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。百分比。下面主要介绍关于定量变量的数字描述。2022/10/102第2页,此课件共56页哦常用的位置统计量常用的位置统计量常用的位置统计量常用的位置统计量“位置位置”一般是关于数据中某变量观测值的一般是关于数据中某变量观测值的“中心位置中心位置”或或者数据分布的中心(者数据分布的中心(center或或center tendency)。和这种)。和这种“位位置置”有关的统计量就称为位置统计量有关的统
3、计量就称为位置统计量(location statistic)。位。位置统计量不一定都是描述置统计量不一定都是描述“中心中心”了,比如百分位数。了,比如百分位数。常用的位置统计量有:样本均值常用的位置统计量有:样本均值(mean);样本中位数;样本中位数(median),它是数据按照大小排列之后位于中间的那个数它是数据按照大小排列之后位于中间的那个数(如果样本量为奇数如果样本量为奇数),或者中间两个数目的平均,或者中间两个数目的平均(如果样本量为偶数如果样本量为偶数),由于中位数,由于中位数不易被极端值影响,所以中位数比均值稳健不易被极端值影响,所以中位数比均值稳健(robust);上下四分;上
4、下四分位数(或分别称为第一四分位数和第三四分位数,位数(或分别称为第一四分位数和第三四分位数,first quantile,third quantile)则分别位于(按大小排列的)数据)则分别位于(按大小排列的)数据的上下四分之一的地方;样本中出现最多的数值,称为众的上下四分之一的地方;样本中出现最多的数值,称为众数数(mode)。2022/10/103第3页,此课件共56页哦数值的分散程度数值的分散程度数值的分散程度数值的分散程度数据中数值的分散程度由尺度统计量(数据中数值的分散程度由尺度统计量(scale statistic)来描述。)来描述。尺度统计量是描述数据散布,即描述集中与分散程度
5、或变化尺度统计量是描述数据散布,即描述集中与分散程度或变化(spread或或variability)的度量。统计中有许多尺度统计量。一)的度量。统计中有许多尺度统计量。一般来说,数据越分散,尺度统计量的值越大。般来说,数据越分散,尺度统计量的值越大。极差极差(range);就是极大值和极小值之间的差。;就是极大值和极小值之间的差。两个四分位数之差,称为四分位数极差或四分位间距两个四分位数之差,称为四分位数极差或四分位间距(interquantile range);它描述了中间半数观测值的散布情况。;它描述了中间半数观测值的散布情况。另一个常用的尺度统计量为样本标准差另一个常用的尺度统计量为样本
6、标准差(standard deviation)。度量样本中各数值到均值距离的一种平均。标准差实际上是度量样本中各数值到均值距离的一种平均。标准差实际上是方差方差(variance)的平方根。如果记样本中的观测值为的平方根。如果记样本中的观测值为x1,xn,则样本方差为则样本方差为 2022/10/104第4页,此课件共56页哦分布形状分布形状分布形状分布形状反映分布形状,通常用偏度和峰度统计量。反映分布形状,通常用偏度和峰度统计量。偏度是用于衡量分布的不对称程度或偏斜程度的指标当偏度是用于衡量分布的不对称程度或偏斜程度的指标当 0时为正偏或时为正偏或右偏,长尾巴拖在右边;当右偏,长尾巴拖在右边
7、;当 中位数中位数众数,左偏时相反,即众数众数,左偏时相反,即众数中位数中位数平均数。正态分布三者相等。平均数。正态分布三者相等。峰度是用于衡量分布的集中程度或分布曲线的尖峭程度的指标。峰度是用于衡量分布的集中程度或分布曲线的尖峭程度的指标。峰度指标峰度指标 的计算公式如下:的计算公式如下:峰度指标峰度指标 0时,表示分布比正态分布更集中在平均数周围,分布时,表示分布比正态分布更集中在平均数周围,分布呈尖峰状态;呈尖峰状态;0分布为正态分布;分布为正态分布;2000 时,结果以时,结果以Kolmogorov Smirnov(D 检验)为准。检验)为准。对于对于K-S检验检验,SAS还可由还可由
8、UNIVARIATE过程的过程的HISTOGRAM语句语句带上表示分布的关键词选项来实现对相应分布的检验。带上表示分布的关键词选项来实现对相应分布的检验。HISTOGRAM语句与分布对应的关键字选项有:语句与分布对应的关键字选项有:beta:分布分布,具有具有,参数和参数和,形状参数形状参数;exponential:指数分布指数分布,具有具有,两个参数两个参数;gamma:分布分布,具有具有,参数参数;lognormal:对数正态分对数正态分布布,具有具有,参数参数;normal:正态分布正态分布,具有具有,参数参数;weibulll:韦伯分韦伯分布布,具有具有,c参数。参数。2022/10/
9、107第7页,此课件共56页哦描述统计的实现方法描述统计的实现方法描述统计的实现方法描述统计的实现方法描述性统计就是主要分析变量集中、离散趋势以及探索变量的描述性统计就是主要分析变量集中、离散趋势以及探索变量的分布。分布。SAS中有多种方法过程可以实现描述统计,这里简要中有多种方法过程可以实现描述统计,这里简要介绍两种。介绍两种。UNIVARIATE等过程来计算描述性统计量。等过程来计算描述性统计量。UNIVARIATE过程的一般形式:过程的一般形式:PROC UNIVARIATE 选择项选择项;VAR 变量表变量表;BY 变量表变量表:FREQ 变量变量;WEIGHT 变量变量;ID 变量表
10、变量表;OUTPUT 选择项选择项;RUN;2022/10/108第8页,此课件共56页哦UnivariateUnivariate过程过程过程过程语法说明语法说明语法说明语法说明选择项选择项:为可选项,常用选项如下。为可选项,常用选项如下。1)data=:指定指定SAS数据集,如果省略这一项,则指定最新建立的数据集,如果省略这一项,则指定最新建立的数据集。数据集。2)noprint:不打印输出到输出窗口。不打印输出到输出窗口。3)Vardef=df|wgt|n|wdf:方差计算中规定除数,方差计算中规定除数,df表示除数使用自由表示除数使用自由度度(n-1),为默认值。为默认值。weightw
11、gt表示用权数和作为除数。表示用权数和作为除数。n表示观测个表示观测个体数体数(样本含量样本含量)做除数。做除数。wdf表示用权数和减表示用权数和减1做除数。做除数。4)Freq:要求生产包含变量值、频数、百分数和累计频数的频数表。要求生产包含变量值、频数、百分数和累计频数的频数表。5)Normal:要求计算关于输入数据服从正态分布的假设的检验统计量。要求计算关于输入数据服从正态分布的假设的检验统计量。6)plot:生成直方图或茎叶图,一个盒形图和一个正态概率图。生成直方图或茎叶图,一个盒形图和一个正态概率图。7)Pctldef=值值:规定计算百分位数方法,取值为规定计算百分位数方法,取值为1
12、,2,3,4和和5.8)Round=:指定变量数值四舍五入的单位。指定变量数值四舍五入的单位。2022/10/109第9页,此课件共56页哦示例示例示例示例某地区家庭中随机抽查了某地区家庭中随机抽查了100户居民,调查到每户家庭人均收入数户居民,调查到每户家庭人均收入数据(单位:百元),试用据(单位:百元),试用UNIVARIATE等过程对上述数据进行描等过程对上述数据进行描述统计。述统计。程序如下程序如下data income;input x;cards;271 396 287 399 466 269 295 330 425 324 228 113 226 176 320 230 404 4
13、87 127 74 234 523 164 336 343 330 436 141 388 293 464 200 392 265 403 259 426 262 221 355 324 374 347 261 287 113 135 291 176 342 443 239 302 483 231 292 373 346 293 236 223 371 287 400 314 468 337 308 359 352 273 267 277 184 286 214 351 270 330 238 248 419 330 319 440 427 314 414 299 265 318 415 37
14、2 238 323 412 493 286 313 412run;proc univariate data=income plot normal;var x;run;输出结果分类整理为输出结果分类整理为“矩矩”、“位置和变异性基本测度位置和变异性基本测度”、“位置检验位置检验”、“正态性检验正态性检验”、“分位数分位数”、“极值观测极值观测”、“图图”七部分内容。七部分内容。2022/10/1010第10页,此课件共56页哦对示例做对示例做对示例做对示例做KSKS检验检验检验检验proc univariate data=income noprint;/*调用调用UNIVARIATE过程过程*/
15、var x;/*指定分析的变量指定分析的变量*/histogram/noplot /*HISTOGRAM语句语句,不显示直方图不显示直方图*/normal(mu=est sigma=est)/*检验正态分布检验正态分布,参数使用估计值参数使用估计值*/lognormal(zeta=est sigma=est theta=est)/*检验对数正态检验对数正态*/exponential(sigma=est theta=est)/*检验指数分布检验指数分布*/weibull(sigma=est c=est theta=est);/*检验韦伯分布检验韦伯分布*/run;2022/10/1011第11页
16、,此课件共56页哦过程过程过程过程FREQFREQ变量可分为数值型变量(连续型变量)和分类变量(离散型变量)变量可分为数值型变量(连续型变量)和分类变量(离散型变量);而分而分类变量又分为名义变量(如性别分为:男、女,种族分为白、类变量又分为名义变量(如性别分为:男、女,种族分为白、黄、黑)和有序变量(年级分为一、二、三、四,成绩等级分黄、黑)和有序变量(年级分为一、二、三、四,成绩等级分为优、良、中、差)。为优、良、中、差)。对对分类分类变量计算均值变量计算均值一般是无意义的一般是无意义的(0-1变量的均值可看作占比变量的均值可看作占比),即便用即便用数值数值表示类别也表示类别也只是某些特征
17、的代号,没有数值计算的意义。只是某些特征的代号,没有数值计算的意义。对这些变量,重要的是了解它们取哪些值以及取每个值的频数。过对这些变量,重要的是了解它们取哪些值以及取每个值的频数。过程程FREQ就提供了这些方面的功能。就提供了这些方面的功能。FREQ过程产生一维至过程产生一维至n维的频数表和列联表,对二维表计算统计量并维的频数表和列联表,对二维表计算统计量并进行检验,对进行检验,对n维表则作分层分析并在层内计算统计量。通过维表则作分层分析并在层内计算统计量。通过FREQ过程可以帮助分析变量值在数据中如何分布。过程可以帮助分析变量值在数据中如何分布。FREQ过程还可用拟合优度检验方法讨论单个离
18、散变量的分布,检验过程还可用拟合优度检验方法讨论单个离散变量的分布,检验两个离散变量的独立性残联表检验,有序变量的关联性度量。两个离散变量的独立性残联表检验,有序变量的关联性度量。2022/10/1012第12页,此课件共56页哦FreqFreq常用语法语法常用语法语法常用语法语法常用语法语法FREQ过程常用语法语法格式过程常用语法语法格式PROC FREQ 选择项选择项;TABLES 变量表式变量表式/选择项选择项;WEIGHT 权重变量权重变量;OUTPUT 选择项选择项;BY 变量表变量表;RUN:其中的其中的TABLES语句是实现上述任务的关键。语句是实现上述任务的关键。TABLES语
19、句变量语句变量表式空格分隔的单独变量名或表式空格分隔的单独变量名或“*”连接的几个变量名组成,如:连接的几个变量名组成,如:TABLES A*B A*C;(等价于(等价于TABLES A*(B C);)。;)。WEIGHT 语句通过权重变量来确定汇总的统计项目所对应的原始记语句通过权重变量来确定汇总的统计项目所对应的原始记录数。录数。2022/10/1013第13页,此课件共56页哦FREQFREQ语法简要说明语法简要说明语法简要说明语法简要说明1)FREQ语句的语句的选择项选择项:为可选项,常用选项如下。为可选项,常用选项如下。Data=:指定指定SAS数据集。用来说明要做数据集。用来说明要
20、做FREQ的数据集名,如果省的数据集名,如果省略这一项,则指定最新建立的数据集。略这一项,则指定最新建立的数据集。ORDER=FREQ|DATA|INTERNAL|FORMATTED:此选项规定变量此选项规定变量水平的记录排列次序。水平的记录排列次序。ORDER=FREQ表示按频数下降的次序排列,表示按频数下降的次序排列,最大的频数的水平第一个出现最大的频数的水平第一个出现;ORDER=DATA表示按输入数据集中表示按输入数据集中出现的次序排列出现的次序排列;ORDER=INTERNAL表示按非格式化值的次序排表示按非格式化值的次序排列;列;ORDER=FORMATTED表示按格式化值的次序,
21、默认时为表示按格式化值的次序,默认时为RDER=INTERNAL.2)BY:指定分组变量。指定分组变量。3)TABLES:指定需条件频数的变量表;可选的指定需条件频数的变量表;可选的/选择项选择项提供一些提供一些专门的统计项目。专门的统计项目。4)WEIGHT:指定权重变量。指定权重变量。5)OUTPUT:指定输出结果到数据集。指定输出结果到数据集。2022/10/1014第14页,此课件共56页哦TABLESTABLES语句的语句的语句的语句的常用常用常用常用选项选项选项选项TABLES语句的选项放在语句的选项放在“/”的后面,主要有:的后面,主要有:CHISQ选项选项:对每组变量作卡方检验
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 软件 基础 课件
限制150内