多元方差分析.pdf
《多元方差分析.pdf》由会员分享,可在线阅读,更多相关《多元方差分析.pdf(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一讲 多元方差分析 第一节 简介 目前应试教育如同过街老鼠一样,人人喊打(表面上看是这样),但有些家长、教师、校长却担心素质教育是否会导致学生成绩下降?这就涉及到一个如何对学生成绩(如语文、数学、外语、体育等等)进行综合评价的问题?试想将某校某年级的学生按班级随机分成两组,一组施以素质教育,另一组仍延用传统的应试教育。考查某次摸底考试的两种教育模型学生的成绩。很容易想到的分析方法对两组学生各科成绩进行 t 检验,分别计算出各门课程的 t 值、P 值,然后回答素质教育是否降低学生的语文成绩,是否降低数学成绩,。很可能的一种情况是,某一(几)门课程成绩检验结果 P 值0.05。这样对于素质教育是
2、否降低学生学习成绩难以下一个综合的结论。此时对一个观察单位的观察指标常有多个,且各指标间又往往相互联系、互相影响。虽然学生中偏科的现象并不少见,但多是偏于一类课程,如文科课程对记忆能力要求较高的几门学科,或理科课程对逻辑分析能力要求较高的学科。对于这种类型的资料,可能会有的人将各个反应变量割裂开分别进行统计分析,但这种分析方法有三个缺点:1、检验效率低。可能的一种情况是两组(或多组)观察对象的多个观察指标的联合分布之间有差别,而单独对每个观察指标进行统计学检验却没有统计学意义。当然反过来也有可能。但并不是说研究者可以随意地将 20 个甚至更多个互不相关的观察指标放在一起,考察各组间反应变量的总
3、体联合分布之间有无差别,有可能一个有真正有差别的观察指标其差别可能会被其它许多没有差别的观察指标稀释掉。所以是否考察多个观察指标的联合分布,要看这几个观察指标之间是否存在相关关系。2、犯一类错误的概率增大。假设有 p 个观察指标,对每个指标进行 t 检验(或方差分析),一类错误的概率 设定为 0.05,根据乘法原理,p 个观察指标的 p 次检验结果均正确的概率为(1 0.05)p。当观察指标数为 5 时,则 5 次检验结果均正确的概率为 0.7738,此时犯一类错误的概率为 1-0.7738=0.2262。当观察指标数为 10 时,犯一类错误的概率则增大为 0.4013。当然这种情况可以应用一
4、些方法(如 Bonferroni 法)通过降低 水准予以解决。如观察指标为 5 时,则相应的 水准应该是 0.0102,(1-0.0102)5=0.9500。3、一元分析结果不一致时,难以下一个综合结论。如上面素质教育的例子,就很难说素质教育是否会导致学生学习成绩下降。4、忽略了变量间相关关系。导致只见树木,不见森林。解决方法就是采用本章所介绍的多元方差分析(Multivariate analysis of variance,MANOVA)。多元方差分析中的多元指的是反应变量为多个,平常所说的多元回归对应的是反应变量为一个,而自变量有多个的资料的统计分析。多元方差分析的基本思想与前文述及的一个
5、反量变量的方差分析相似,都是将反应变量的变异进行分解成两部分:一部分为组间变异(组别因素的效应),一部分为组内变异(随机误差)。然后对这两部分变异进行比较,看是否组间变异大于组内变异。从理论上讲组间变异再小也不可能比组内变异小,因为若组别因素效应为 0,则组间变异应该等于组内变异,因此多元方差分析与单个反应变量的方差分析一样,也是双侧检验对应单侧概率。所不同的是,后者是对组间均方与组内均方进行比较,而前者是对组间方差协方差矩阵与组内方差协方差矩阵进行比较。多元方差分析对资料的要求:1、各应变量服从多元正态分布。多元方差分析对于多元正态分布的要求并不高,实际应用中这一条件通常弱化为每一个反应变量
6、服从正态分布即可。若各反应变量服从多元正态分布,则每个反应变量的分布(即该多元正态分布的边际分布,marginal distribution)必然也服从正态分布,而反过来则未必成立。如果有一个反应变量不服从正态分布,则这几个反应变量的联合分布也可能不服从多元正态分布。2、各观察对象之间相互独立。3、各组观察对象反应变量的方差协方差矩阵相等。4、反应变量间的确存在一定的关系,这可以从专业或研究目的的角度予以判断。需要指出的是,多元方差分析对于方差齐性要求较高,分析结果对于方差齐性较为敏感。并且对样本含量也有一定要求,不仅总样本量要较大,各处理中样本数量也应较大,否则检验效能偏低,容易得到阴性结果
7、,犯二类错误概率增大。第二节 多元分析常用统计量 2.1 方差、协方差阵 方差(variance)也称均方差(mean square deviation),反映一个变量在某个特征群体上离散水平。其计算公式为:协方差(covariance),反映两个变量在在某个特征群体上共同离散水平。其计算公式为:将各指标的方差、协方差用矩阵的形式排列,得方差-协方差阵,用字母 V 表示。例 1-1 4 名中学生的身高、体重、胸围资料见表 1-1。表 1-1 4 名中学生的身高、体重胸围测量资料 其协方差矩阵如下:height weight chestc height 88.6891667 107.004166
8、7 62.9083333 weight 107.0041667 151.8958333 87.625000 chestw 62.9083333 87.6250000 51.3833333 no height weight chestw 1 171.0 58.5 81.0 2 175.0 65.0 87.0 3 159.0 38.0 71.0 4 155.3 45.0 74.0 211()()()11nnikiikiikikkiixxxxxxvnn=1()()1nikijkjkijxxxxvn=111213212223313233vvvvvvvvvv=对角线上为各变量的方差。对角线的两恻为两变量
9、的协方差,沿对角线左右对称。2.2 离差阵 将各指标的离均差平方和与离均差积和以矩阵形式进行排列,得离均差平方和与离均差积和以矩阵(sum of squares and cross-products matrix,SSCP),简称离差阵。用字母 SS表示。其计算公式为:其与方差的关系为 SS=(n-1)V,例1-1的离差阵为:height weight chestc height 266.0675000 321.0125000 188.7250000 weight 321.0125000 455.6875000 262.8750000 chestw 188.7250000 262.875000
10、0 154.7500000 对角线上为离均差平方和,以对角线为对称的两侧为离差积和。2.3 相关系数矩阵(correlation coefficients matrix)将各指标的相关系数以矩阵的形式进行排列为相关系数矩阵,用字母R表示。例1-1 的相关系数矩阵为:height weight chestc height 1.00000 0.92192 0.93008 weight 0.92192 1.00000 0.98992 chestc 0.93008 0.98992 1.00000 相关系数以对角线左右对称。2.4 将各指标的均数用以向量的形式排列,称为均向量。排成列的形式称为列向量,如
11、AX,排成行的形式称为行向量,如AX。第三节 成组设计的多元方差分析()()=nkiikiixxss12()()()()=nkjjkiikijxxxxss1111213212223313233ssssssSSssssssssssss=111213212223313233rrrrrrrrr=R73.9875.2679.84A=X()73.9875.2679.84AX=例 1-2 将某校某年级的学生按班级随机分成两组,一组施以素质教育,另一组仍延用传统的应试教育,考核的指标:期中考试的语文、数学、英语成绩问题:素质教育是否降低学生学习成绩?数据见表 1-2。表 1-2 两种教育下的考试成绩 素质教
12、育 应试教育 语文 数学 英语 语文 数学 英语 65 99 78 63 71 67 78 83 85 83 76 86 76 64 71 69 68 80 77 65 87 74 85 87 79 80 84 65 73 82 64 71 83 68 95 76 78 80 77 59 82 74 61 91 75 66 66 67 76 83 74 70 78 87 85 95 66 78 75 85 69 77 74 86 77 69 60 79 63 75 65 67 73 86 79 68 78 70 86 85 74 89 75 72 75 83 80 86 84 75 84 60
13、 77 85 67 88 68 80 65 67 76 78 76 72 77 78 86 89 69 76 78 81 91 93 90 82 69 76 75 82 70 91 90 63 69 77 64 73 75 72 79 87 73 85 72 60 84 81 80 72 84 83 77 66 85 76 78 73 80 73 74 79 74 75 59 93 73 78 75 72 75 89 86 68 83 70 99 100 61 98 81 73 73 59 79 67 89 67 53 80 80 87 74 93 68 74 80 71 63 67 79 9
14、3 68 66 81 70 76 69 63 77 77 68 65 78 77 74 95 78 79 100 72 92 92 62 71 83 83 99 90 76 70 97 64 73 84 80 71 46 77 65 88 69 80 76 64 77 75 68 80 66 93 72 73 74 64 82 68 78 84 78 92 84 69 83 75 67 74 76 66 59 97 85 59 76 81 74 87 80 86 95 72 71 65 72 71 86 72 88 51 72 67 85 92 62 79 70 73 89 77 93 82
15、84 88 85 82 74 85 92 59 73 解析:欲回答两种教育下的的成绩是否不同,不仅要分析各单科成绩,同时要将各科成绩联合起来进行分析,故要使用多元方差分析。1、多元方差分析的假设:H0:各组总体均数向量相等 H1:各组总体均数向量不等或不全相等 素质教育:应试教育:2、基本思想 对方差-协方差(离均差平方和-离均差积和)的分解。成组设计的变异度分解为:总变异矩阵=组间变异矩阵+组内变异矩阵,即 T=H+E,再由变异矩阵构造可以下四个检验统计量:Wilks lambda()=|E|/|H+E|如果 H 相对较大,则|H+E|会相对较大,|E|/|H+E|就会较小,逼近 0,组间变
16、异越大,越有理由拒绝 H0。Pillais trace=trace(H(H+E)-1)H 越大,则 trace(H(H+E)-1就会越大,所以越有理由拒绝 H0。Hotelling-Lawley trace=trace(E-1H)H 越大,则 trace(E-1H)就会越大,所以越有理由拒绝 H0。Roys maximum root:E-1H 最大特征根 H 越大,则 trace(E-1H)就会越大,所以越有理由拒绝 H0。Pillais trace 最为稳健。将这些统计量进行转换得到 F 分布进行统计推断。对于以上 4 种检验统计量,Olson 于 1974 年证明了当模型建立的前提条件不满
17、足时,Pillais trace 最为稳健。3、对本例的变异度分解 a、计算各组内离均差平方和与离均差积和矩阵()73.9875.2679.84AX=()74.6878.2678.28BX=组内变异=各组变异之和=SS素质教育+SS应试教育 总变异:离差阵 T 为:组间变异:离差阵:B=T-W 多元方差分析表 表 1-3 多元方差分析表 变异来源 SSCP 组间 B 1=g-1 组内 W 2=n-g 总 T n-1 构造多元方差分析的的检验统计量之一:Wilks 统计量 由公式可看出其表是组内变异在总变异中的比例。3320.98195.7436.16195.744409.621228.0836
18、.161228.085636.72SS=素质教育3394.88719.8485.48719.845003.62644.6485.48644.643826.08SS=应试教育6715.86915.5849.32915.589413.24583.4449.32583.449462.80WSSSS=+=素质教育应试教育6728.11863.0822.02863.089638.24466.4422.02466.449523.64T=12.2552.5027.3052.50225.00117.0027.30117.0060.84BTW=BWW+=+=11115.8792509 100.96546.090
19、0037 10WWWBT=+,111()m n mnmFFm=1.146882121F=其中 m 为变量个数,n 为总的样本含量。本例 m=3,n=100-3-1=96,P=0.3342,在0.05=的水平上没有理由拒绝0H,故不能认为素质教育和应试教育的学生的成绩不相等。在 SAS 中调用 GLM 过程中的 MANOVA 选项,程序如下:程序 m1_1.sas data a1;input x1-x3 group;cards;65 99 78 1 78 83 85 1 76 64 71 1 77 65 87 1 79 80 84 1 64 71 83 1 78 80 77 1 61 91 75
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 方差分析
限制150内