多层线性模型简介-两水平模型.ppt
《多层线性模型简介-两水平模型.ppt》由会员分享,可在线阅读,更多相关《多层线性模型简介-两水平模型.ppt(76页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多层线性模型简介 Introduction to HLM北京师范大学心理学院刘红云主要内容n为什么要用多层线性模型为什么要用多层线性模型?n回归分析模型回顾回归分析模型回顾n多层(多水平)数据特点多层(多水平)数据特点n什么是多层线性模型?什么是多层线性模型?nHLM发展发展nHLM数学模型数学模型nHLM常见简化模型常见简化模型n两水平模型应用举例两水平模型应用举例n应该注意的问题应该注意的问题回归分析模型iiiXY102, 0Ni回归分析模型的假设n线性(Linearity)n误差正态分布( normally distributed)n误差方差齐性(homoskedastic)n误差或观测
2、个体之间相互独立(independent)什么是多层(多水平)数据?n多层(多水平)数据指的是观测数据在单位上具有嵌套的关系。如学生嵌套于班级,班级嵌套于学校等。n同一单位内的观测,具有更大的相似性。同一个班级的学生由于受相同的班级环境等因素的影响有更大的相似性。嵌套于背景(contextual)特征的多层数据举例n学生水平特征的观测,嵌套于班级或学校n兄弟姊妹特征的观测,嵌套于家庭n个体之间的观测嵌套于社区n个体不同时间点的重复测量嵌套于个体n病人嵌套于医院n参数的估计嵌套于不同的研究 (元分析,meta-analysis)对多层数据,我们了解什么.n随机选取两个观测,同一组内的观测之间的相
3、似性要比不同组观测之间的相似性大;n如果回归模型不能解释所有的组间的差异(事实上传统回归不可能做到这一点),那么同一组内的观测之间的误差可能相关;n这就违背了传统回归(OLS)中关于残差相互独立的假设;n至少,传统回归分析得到的标准误的估计不正确(太小)。HLM数据特点n对于嵌套数据,传统回归模型的做法:(1)个体(如学生)水平上分析 问题:同一班级的学生间相互独立的假设是不合理的,同样对不同班级的学生和相同班级的学生作同一假设也是不合理的。 (2)组(如学校)水平上分析 问题:丢失了班级内学生个体间的差异的信息。 HLM数据特点n对于嵌套数据,传统回归分析的假设往往无法满足。 传统的线性回归
4、模型假设变量间存在直线关系,因变量总体上服从正态分布,方差齐性,个体间相互独立。前两个假设较易保证,但方差齐性,尤其是个体间相互独立的假设却很难满足。 独立性不满足带来的问题n传统回归系数估计的标准误依赖于相互独立的假设;n如果独立性的假设不满足,得到的标准误的估计往往偏小,因此所犯第一类错误的概率往往偏大。表1 当组内相关存在时,第一类错误限定为0.05时,实际所犯第一类错误的概率组内相关组样本容量0.010.050.20100.060.110.28250.080.190.46500.110.300.591000.170.430.70HLM数学模型n例如:对73个学校1905名学生进行调查,
5、目的是考虑其刚上高中时的入学成绩与三年后高考成绩之间的关系。 考虑方法:(1)如果用传统的线性回归分析,直接在学生水平上进行分析,得出入学学业成绩对高考成绩之间的一条回归直线,如下图1所示,从图1的结果可以看出,传统回归分析没有区分不同的学校之间的差异。 图1:不考虑学校之间差异的回归直线 HLM数学模型n(2)如果将数据进行简单合并,用每个学校学生的平均成绩代替这个学校的成绩,直接在学校水平上估计入学成绩对高考成绩的影响,得到一条回归直线,如图2所示,这种方法忽略了不同学生之间的差异;图2:只考虑学校差异忽略学生差异回归直线 HLM数学模型n(3)如果假设不同学校入学成绩对高考成绩的回归直线
6、截距不同,斜率相同(平均学习成绩之间存在差异),得到如图3的结果,从图中结果可以看出,不同学校学生平均高考成绩之间存在差异。图3:考虑不同学校平均成绩差异的回归直线 HLM数学模型n(4)对73所学校分别做回归分析,得到如图4的结果,如图4所示,从图中结果可以看出,不同学校回归直线的截距和斜率均不同,即:不同学校学生平均高考成绩之间存在差异,入学学业成绩对高考成绩的影响强度不同。图4:考虑不同学校平均成绩差异 和入学对毕业成绩影响程度差异的回归直线 回归模型中,如何解决残差相关的问题?n希望定义一个模型,可以明确地允许因变量水平在组内和组间存在差异n例如,允许学生的学业成绩存在学校之间的差异告
7、别 OLS: 一个简单的多层线性模型ijjijijruXY10n将n重写为:ijijijXY10一个简单的多层线性模型ijjijijruXY10一个简单的多层线性模型ijjijijruXY10Outcome for observation i in unit j一个简单的多层线性模型ijjijijruXY10Outcome for observation i in unit jIntercept 一个简单的多层线性模型ijjijijruXY10Outcome for observation i in unit jIntercept Coefficient Value of X for obse
8、rvation i in unit j 一个简单的多层线性模型ijjijijruXY10Outcome for observation i in unit jIntercept Coefficient Value of X for observation i in unit j Residual term specific to unit j 一个简单的多层线性模型ijjijijruXY10Outcome for observation i in unit jIntercept Coefficient Value of X for observation i in unit j Residua
9、l term specific to unit j Residual term specific to observation i in unit j一个简单的多层线性模型ijjijijruXY10Outcome for observation i in unit jIntercept Coefficient Value of X for observation i in unit j Residual term specific to unit j Residual term specific to observation i in unit j uj表示什么?n残差项n定义第 j 组(第二
10、水平)n对于第 j组的所有观测都相同n只有下标 j, 没有下标 in解释: 总截距和第 j组的截距之间的差异 rij表示什么?n残差项n定义第 j 组第i 个观测 n均值为0模型的特征n注意到: ij = uj + rijn我们有: Var(ij)= Var(uj + rij)= Var(uj) + Var(rij) + 2*Cov(uj,rij) = Var(uj) + Var(rij)模型的特征n Yij 的值可能存在第二水平(组间)的差异n对于 uj和 rij没有定义其分布.n X 和 Y 之间的关系不依赖于 j (1 不依赖于 j)模型的另一种表达jjijijjijijjijjijij
11、urXrXuruXY00101010这里多层线性模型n水平1(如:学生) n水平2(如:学校) ijijjjijeXY10jju0000gYij-第j个学校的第i个学生jju1101g何谓多层线性模型?n多层线性模型又称为: n多水平分析( Multilevel Analysis )n混合模型(Mixed Models)n随机系数模型(Random Coefficient Models)HLM的发展 快速发展与应用 HLM(Bryk,Randenbush,SeltzerCongdon,1988); Mlwin(Rabash,ProsserGoldstein,1989); VARCL(Longf
12、ord,1988); MPLUS(Muthen,1992); SAS, SPSS多层线性模型n回归模型的一种n常用来回答背景变量(如班级环境等)与个体变量(如学生特征)之间的关系n常用来估计组内(如班级内)和组间(如班级间)变量间的关系 以及跨水平的交互作用。n例如, 学校组织气氛对学生学业成绩的影响;学校组织气氛与学生社会经济地位的交互作用。 多层线性模型简介n多层线性模型一种处理嵌套数据的统计方法。通过定义不同水平(层)的模型,将随机变异分解为两个部分,其一是第一水平个体间差异带来的误差,另一个是第二水平班级的差异带来的误差。可以假设第一水平个体间的测量误差相互独立,第二水平班级带来的误差
13、在不同班级之间相互独立。多水平分析法同时考虑到不同水平的变异 。多层线性模型n多层分析方法提供了解决嵌套数据关系的合理的正确的统计方法。下面结合上面提到的例子,介绍两水平模型的一般数学表示:多层线性模型n水平1(如:学生) n水平2(如:学校) ijijjjijeXY10jjjuW111101ggjjjuW001000ggYij-第j个学校的第i个学生多层线性模型n合并模型: 其中:yij表示因变量(如三年后的高考成绩),xij表示第一水平(学生)的预测变量,Wj表示第二水平(学校)的预测变量。 ijijjjjijjijijeXuuWXWXY1011011000gggg多层线性模型n模型的假设
14、条件为: ( 1) ije), 0 (2N,ije间 相 互 独 立 ; ( 2)jjuu10), 0 ( N , 1101100010jjuuVar ( 3)0),(),(10ijjijjeuCoveuCov, 21, 0),(21jjuuCovijij 多层线性模型截距与斜率之间的相关系数:n截距与斜率之间的相关系数大小表示了不同学校平均高考成绩与入学成绩对高考成绩影响强度之间的关系,如果相关系数大于零,表示平均成绩越高,入学成绩对期末成绩的影响越大。 2111000110)(),(jjrHLM常用模型类型n随机效应一元方差分析模型(one-way Anova with Random Ef
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多层 线性 模型 简介 水平
限制150内