SPSS第9章.ppt
《SPSS第9章.ppt》由会员分享,可在线阅读,更多相关《SPSS第9章.ppt(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第九章 混合线性模型Mixed Linear Model层次结构的资料 例如在市场研究的抽样调查中,受访者会来自不同的城市,这就形成了一个层次结构,高层为城市,低层为受访者。显然,同一城市内的受访者在各方面的特征应当更加相似。 又如在几个随机选择的中心或组进行的临床试验,中心间的医疗水平不同,在相同中心的病人也往往比从一般总体中随机抽取的个体趋向于更相似。 换言之,所谓是指基本的观察单位聚集在更高层次的不同单位中,如同一城市的受访者特征间具有相关性,同一中心的病人数据具有相关性等。 传统模型没有对这些问题进行考虑,在数据组内聚集性较强时可能会得出错误结论。离散趋势的分析 在传统的统计分析方法中
2、,对集中趋势(均数)的分析方法已经发展到了比较完善的地步,但对于离散趋势的分析则还处于正在起步的阶段。 即我们可以准确的推断是哪些因素对应变量的均数有影响,却无法分析是哪些因素对应变量的变异程度有影响。这一问题现在越来越受到重视,已成为统计理论的一个重要发展方向。混合效应模型 混合效应模型是八十年代初针对资料的层次结构而发展起来的一类模型,它充分考虑到了数据聚集性的问题,可以在数据存在聚集性的时候对影响因素进行正确的估计和假设检验。 不仅如此,它还可以对变异的影响因素加以分析,即哪些因素导致了数据间聚集性的出现,哪些又会导致个体间变异的增大。 由于该模型成功解决了长期困扰统计学界的数据聚集性问
3、题,二十年来得到了飞速的发展。各大权威统计软件纷纷开始提供这一分析方法,SPSS 11.0版中也新增了这模块,借助SPSS简洁的操作界面,无疑将使得多水平模型的操作性大为改观,真正做到“飞入寻常百姓家” 。1 模型简介初级学校项目(Junior School Project,JSP) JSP.sav是“初级学校项目”(Junior School Project,JSP)的一部分,它共包含了伦敦65所初级学校中共4059名学生的数据,文件中包括了如下变量: School:学生所在学校的代码,取值为165。 Student:每个学生在学校内的ID号。 Nomexam:学牛在16岁时的考试成绩,己进
4、行了标准正态变换。 Standlrt:学生在11岁时的考试成绩,已进行了标准正态变换。 Gender:学生的性别。 Schgend:学校的类型,1为男女混合,2为男校,3为女校。 Avslrt:各个学校学生11岁考试成绩的平均数,已进行了标准正态变换。1.1 模型入门 以11岁的成绩为自变量建立针对16岁时成绩的回归方程,在考虑到学校间差异的影响时,一般线性模型建立的回归模型如下: yij=+1standlrtij+jschoolj+ij 1代表了11岁成绩的影响,后面的j则表示了第j个学校的效应,ij为第j个学校第i个学生的随机误差,被假定为服从均数为0的正态分布。 请大家注意,在混合效应模
5、型中,下标的使用顺序和一般线性模型恰恰相反!以前我们说yij代表了第i所学校第j个学生的数值,现在则为第j所学校第i个学生的数值,即i代表了最小的观察单位(学生),j代表高一级的观察单位(学校),如果有更高层次(如城市),则会以k来代表,以此类推。为统一起见,我们在本章中却会这样定义模型。 单独一所学校时的情况 yi=+1standlrti+i 其中下标i代表第i个学生。在单独考虑这一所学校时,该模型是非常完善的,但当同时考虑多所学校时问题就出现了。显然,各个学校的教学水平是有差异的,也就是说同一所学校学生的成绩之间实际上并不独立,好学校的学生成绩会普遍好一些,差学校的成绩会普遍差一些。 几所
6、学校的模型 yij=(0+0j)+1standlrtij+ij yij代表了第j所学校第i个学生16岁成绩的大小。其中的0j就表示了不同学校间截距的变异。如果样本中学校个数m不多,且研究者的兴趣就在样本中的这几所学校,则可以将学校看成是一个固定因素,用一组m-1个哑变量表示,拟合m+1个参数来进行分析,此时0j就是对应于那m-1个哑变量的参数,该模型实际上就是刚才列出的最常用的模型公式: yij=+1standlrtij+jschoolj+ij 如果我们不仅只关注这几所学校,而是关注更广泛的学校总体,那么就需要估计在学校总体中截距的变异有多大,此时实际上是将原来的真正当作一个随机变量来看待,令
7、其为=0+0j,这样,通过检验0j是否为0(具体方法为检验其方差是否大于0),我们就可以得知这种截距的变异在学校总体中是真的存在,还是仅仅因为抽样导致的假象而已。此时模型需要同时估计随机项0j的大小,就成为了一个真正的混合效应模型。 下面我们来观察更多的数据,图3.3是前10所学校各自的回归线,从中我们可以看到除了截距以外,各回归线的斜率间也不尽相同。也就是说,成绩在学校间的聚集性除了表现为成绩的平均水平不同外,还表现在不同学校中成绩的离散度上!斜率高的学校其16岁成绩离散度较高,斜率低的则成绩比较集中。同上,模型将被继续扩展如下: yij=(0+0j)+(1+1j)standlrtij+ij
8、 同理,通过检验随机项1j是否等于0,我们就可以得知是否各个学校的成绩离散度不同。更一般的,模型中的随机项常常被写在一起,如下所示: yij=(0+1 standlrtij)+( 0j +1jstandlrtij+ij) 上式中的两部分分别被称为固定部分和随机部分,可见和普通的线型模型相比,混合线性模型主要是对原先的随机误差进行了更加精细的分解。但正因如此,该模型就可以正确估计并分析数据在高水平单位内聚集的问题,同时可以为研究者提供更加丰富的信息。 1.2 混合效应模型的用途 1对固定效应参数进行更准确的估计对固定效应参数进行更准确的估计 由于在模型的设置上就考虑到了数据的聚集性问题,并采用了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS
限制150内