SASSAS基本统计分析功能课件.pptx
《SASSAS基本统计分析功能课件.pptx》由会员分享,可在线阅读,更多相关《SASSAS基本统计分析功能课件.pptx(97页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、目录4.1 假设检验4.2 回归分析4.3 方差分析4.4 属性数据分析返回4.1 假设检验正态性检验(univariate 过程)单样本均值的T 检验(univariate 过程)两 独 立 样 本 均 值 检 验(TTest 过 程npar1way 过程)两 相 关 样 本 均 值 检 验(Univariate 过程)返回4.1.1 正态性检验(univariate过程)q 1.背景原理:正态分布是一种最常见的连续型分布它以均值为对称轴呈对称的钟型分布。q 检验的零假设Ho:数据资料服从正态分布。备择假设H1:数据资料不服从正态分布。q 当样本量n2000 时,应选用shapiro-wil
2、k 检验法,检验统计量为W值越接近于1,P 值越大,表明资料越服从正态分布q 当n2000 时,应用Kolmogorov-smirnov 检验法,检验统计量为D 值越小,P 值越大,表明资料越服从正态分布。2.举例q 在proc univariate 语句中加上normal 选项可以进行正态性检验。q【例1】检验数据集sasuser.gpa 中变量gpa是否服从正态分布?输出结果中正态检验部分为:q 分析:检验的零假设为Ho:gpa 变量服从正态分布,其中shapiro-wilk 检验的统计量为w=0.966294,检验的p 值小于0.0001,当然小于给定的显著性水平=0.05,故应拒绝零假
3、设,即有95%把握认为gpa 非正态。说明:q使用SAS软件中的“分析家”,打开数据集后,利用菜单“统计”“描述性统计”“分布”,除了可以检验变量是否服从正态分布外,还可以检验对数正态、指数和韦布尔分布。4.1.2 单样本均值的T 检验(univariate 过程)q 1.原理背景q 设总体XN(,2),、2未知,给定检验水平,对常数0要检验零假设为q 设X1,X2,Xn 为X 的简单随机样本,在H0 成立时有q 其中S 为变量的标准差,n 为样本量。q 检验的拒绝域为:补充P 值检验法:q 分位数t1-/2(n-1)满足 Pr|t|t1-/2(n-1)=q 设由已经得到的样本具体计算得到的t
4、 值为t0,若|t0|t1-/2(n-1),则拒绝H0,否则接受H0。q 对大量重复试验而言,t 是随机变量,且服从t 分布t(n-1)。当|t0|t0Pr|t|t1-/2(n-1)=q 反之亦然。令p=Pr|t|t0,则|t0|q 所以,假设检验的p 值方法为:对给定的显著水平,当p 时,接受H02.应用举例q 在SAS 中用univariate 过程默认进行某个变量均值为零(0=0)的t 检验,若要检验=0,则需进行变量代换。q 例2:检验数据集sasuser.class 中学生的身高均值与63有无显著性差异。输出结果为:分析:q 先作正态性检验。Ho:变量y服从正态分布,其中shapir
5、o-wilk 检验的统计量为w=0.979083,检验的p 值=0.9312=0.05,故应接受零假设,即有95%把握认为变量y正态。q 故采用单样本均值T 检验。对变量y的零假设为Ho:0=0。由输出结果知T 检验的统计量t=-0.5638,双边检验的p 值为0.5798=0.05,故接受原假设,即有95%的把握接受学生的平均身高为63。说明:q 当变量服从正态分布时,优先采用t 检验,当变量服从非正态时,可以采用符号秩(signed Rank)检验,符号检验(sign)的检验功效较差,一般不常用它。q 对同一问题不同的检验方法一般是一致的,但有时也有互相矛盾的结果。q 使用SAS 软件中的
6、分析家,打开数据集后,利用菜单“统计”“假设检验”“均值的单样本T 检验”可以进行双边和单边检验。4.1.3 两独立样本均值检验(TTest 过程、npar1way 过程)q 1.原理背景q 假设两组样本来自两个独立总体,需要检验两个总体的均值或中心位置是否一样。如果两个总体都服从正态分布,则可使用两独立样本均值的T 检验。q 两个样本方差相等与不相等时使用的检验统计量是不一样的,所以应该先对方差的齐性进行检验。q 设两个样本的均值为,方差为,观测量为 有关公式如下:q 方差齐性检验的零假设为0:两个独立样本的来自方差相等的总体,即,检验统计量为4.1.3 两独立样本均值检验(TTest 过程
7、、npar1way 过程)q 方差齐时,检验两样本的均值是否相同的零假设为H0:两个独立样本的来自均值相等的总体,即,检验统计量为其中 为合并方差。q 方差不齐时,检验两样本的均值是否相同,用校正t 检验。检验零假设为H0:两个独立样本的来自均值相等的总体,即,检验统计量为2.Ttest过程q 格式:PROC TTEST 选项;CLASS 变量名;V AR 变量名;BY 变量名;RUN;q 说明:(1)proc 语句中的“选项”有:q Data=数据集,指明要分析的数据集;q Cochran 要求在方差不齐时用Cochran 和Cox 法计算t 检验的概率水平;(2)Class 语句中的变量必
8、须是一个两水平的分组变量,系统会把数据集中的观测按这个变量的两个水平分成比较的两组。(3)by 语句和var 语句作用同前。【例3】q 某克山病区测得11 例克山病人与13名健康人的血磷值(mmol/L)如表,据此判断该地急性克山病人与健康人的血磷值是否相同?输出为:分析:q(1)先作正态性检验如下:q 零假设为Ho:患者组的血磷值变量x服从正态分布,其中患者组的shapiro-wilk 检验的统计量为w=0.959147,检验的p=0.7610=0.05,故应接受零假设,即有95%把握认为x正态。q 零假设为Ho:健康组的血磷值变量x服从正态分布,其中健康组的shapiro-wilk 检验的
9、统计量为w=0.927983,检验的p=0.3207=0.05,故应接受零假设,即有95%把握认为x正态。分析:q(2)因此可采用两独立样本均值的T 检验。由ttest 过程输出先作方差齐性检验如下:q 0:患者组和健康组来自方差相等的总体,即,检验的统计量F=1.01,P=1.000=0.05,故应接受零假设,即有95%把握认为患者组和健康组方差满足齐性。q 再作T 检验。H0:患者组和健康组来自均值相等的总体,即。选择方差齐性一行的结果知t=2.51,p=0.02=0.05,故应拒绝零假设,即有95%把握认为患者组与健康组血磷值的均值有显著差异,且是患者组比健康组的均值要高。注:q 使用S
10、AS 软件中的“分析家”,打开数据集后,利用菜单“统计”“假设检验”“均值的双样本T 检验”,可以进行单边和双边检验。q 如果数据不服从正态分布可以采用非参数检验,检验两个独立样本的中心位置是否相同的非参数方法有wilxocon 秩和方法,使用npar1way 过程加wilcoxon 选项,如教材P123。q【例4】检验数据集sasuser.gpa 中男、女生的gpa 分数有无显著差异?分析:q 在例1中我们讨论过变量gpa 是非正态分布,故要采用wilxocon 秩和非参数检验方法。q 零假设为H0:男生和女生来自中心位置相同的总体。由输出结果的wilcoxon 秩和检验中用正态近似得到的双
11、边检验的z=0.5276,p=0.5978=0.05,故应接受零假设,即有95%把握认为男生和女生的gpa 无显著性差异。4.1.4 两相关样本均值检验(Univariate 过程)q 1.原理背景q 相关样本的有两种情况:q 一种是将研究对象按一定的条件先配对,每对中的两个对象随机分配到实验组和对照组,一个试验由若干对组成,称为配对试验设计;q 另一种情况是同一批研究对象经过某种处理前后的指标值比较,或者是同一批样品经过两种不同方法的测定结果的比较。此时这两个变量不再独立,而是相关的。4.1.4 两相关样本均值检验(Univariate 过程)q 检验两个相关变量的均值是否相等,等价于检验这
12、两个变量间的差值变量的均值是否为零。当差值变量服从正态分布时,可用配对样本T 检验的统计量为q 其中X 为两个样本的差值变量,、S 分别为差值变量的均值和标准差。2.实例分析q 为了检验两个相关样本的均值是否有显著差异,先用一个数据步计算差值,然后对差值变量用univariate 过程可以实现检验差值变量的均值是否显著为零。q【例5】用克矽平雾化吸入治疗矽肺患者7人,没得治疗前后的血清粘蛋白(mg/L)7对观测值如表,据此能否认为治疗会引起血清蛋白的变化?(=0.05)输出部分结果:分析:q 先作正态性检验如下:q 零假设为Ho:差值变量x服从正态分布,由输出结果知shapiro-wilk 检
13、验的统计量为w=0.896832,检验的p=0.3122=0.05,故应接受零假设,即有95%把握认为x正态。q 故可采用两相关样本均值T 检验。q H0:治疗前后的差值变量x的均值为0。由输出结果知T 检验的统计量t=5.879298,双边检验的p 值为0.0011=0.05,故拒绝原假设,即有95%的把握认为治疗后血清蛋白有下降。注:q 使用SAS 软件中的“分析家”,打开数据集后,利用菜单“统计”“假设检验”“均值的双样本成对T 检验”,除了可以进行单边和双边检验。q 如果数据不服从正态分布可以采用非参数检验,如符号检验、符号秩检验,在SAS 中可用univariate 过程实现。q【例
14、6】为了检验一种新的复合肥料和原来使用的肥料相比是否显著地提高了小麦的产量,在一个农场中选择了10块田地,每块等分为两部分,其中任指定一部分使用新的复合肥料,另一部分使用原肥料,小麦成熟后称得各部分小麦的产量(单位:kg)如表,用符号检验法检验新复合肥是否会显著提高小麦产量?(=0.05)分析:q 先作正态性检验如下:q 零假设为Ho:差值变量diff服从正态分布,由输出结果知shapiro-wilk 检验的统计量为w=0.835307,检验的p=0.0388=0.05,故应拒绝零假设,即有95%把握认为差值变量diff不服从正态分布。q 故采用符号秩非参数检验。q H0:差值变量diff的均
15、值为0。由输出结果知符号秩检验的统计量S=20.5,双边检验的p 值为0.0332=0.05,故拒绝原假设,即有95%的把握认为新复合肥会显著提高小麦产量。作业:P157 习题1,3,5,74.2 方差分析q4.2.1单因素方差分析q4.2.2非参数单因素方差分析q4.2.3多因素方差分析q 思 路:检 验 多 组 独 立 样 本 均 值 有 无 显 著 性 差 异,等 价 于 检验这个因素的各个取值水平会不会影响到指标的取值。4.2.1单因素方差分析q 1.背景简介q 单因素方差分析模型:q 其中 为分类变量(因子A)的第i 个水平的效应。q 零假设 q 平方和分解式:q 即总偏差平方和=误
16、差的偏差平方和+因子A 的偏差平方和q 统计量 4.2.1单因素方差分析q 前提条件是独立性、正态性和方差齐性。q 当数据满足这些条件时,可采用anova 过程来进行单因素方差分析,一般格式为:Proc anova data=数据集名;Class 因素变量;Model 指标变量=因素变量效应表;Means 因素变量/hovtest=levene;Run;2.案例分析q【例1】(摘自魏宗舒概率论与数理统计例8.1)为寻求适应本地区的高产油菜品种,今选了五种不同品种进行试验,每一品种在四块试验田上试种,得到在每一块田上的亩产量如表。q 试问不同品种的油菜的平均亩产是否相同?(=0.05)A1 A2
17、 A3 A4 A5256 244 250 288 206222 300 277 280 212280 290 230 315 220298 275 322 259 212分析:q(1)正态性检验。q Ho:第1组数据服从正态分布,由输出结果中shapiro-wilk统计量为w=0.975665,p=0.8762=0.05,故接受Ho,即第1组数据服从正态分布。q 类似可得第二、三、四、五组数据的shapiro-wilk 统计量为w=0.937882、0.964898、0.985353、0.935122,检验的p=0.6415、0.8097、0.9326、0.6248=0.05,故这四组数据也服
18、从正态分布。q(2)方差齐性检验。Ho:5组数据的方差相等。正态分布由Leneve 方差齐性检验的F=1.53,p=0.2451=0.05,故这5组数据满足方差齐性。q(3)方差分析。Ho:5组数据的均值相等。由方差分析表中F=4.31,p=0.0162=0.05,故拒绝Ho,即不同品种的油菜的平均亩产有显著差异。4.2.2非参数单因素方差分析q 前节方差分析中的正态性或方差齐性不能满足时,可采用非参数检验方法,如Krushal-Wallis 检验。q 这种检验不要求数据来自正态总体,也不要求各组的方差齐,甚至指标可以是有序变量(只有大小,没有差距如大、中、小,或很好、好、一般、不好,很不好等
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SASSAS 基本 统计分析 功能 课件
限制150内