多水平统计模型研究生版教案.ppt
《多水平统计模型研究生版教案.ppt》由会员分享,可在线阅读,更多相关《多水平统计模型研究生版教案.ppt(76页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多水平统计模型研究生版 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望n n概述概述n n层次结构数据的普遍性层次结构数据的普遍性n n经典方法及其局限性经典方法及其局限性n n基本多水平模型基本多水平模型n n多水平模型的应用多水平模型的应用n多水平主成分分析n多水平因子分析n多水平判别分析n多水平logistic回归n多水平Cox模型n多水平Poisson回归n多水平时间序列分析n多元多水平模型n多水平结构方程模型MLwiN(1999)SAS(Mixed)SP
2、SS STATA 两水平层次结构数据两水平层次结构数据水平2 水平1 层次结构数据的普遍性层次结构数据的普遍性“水平水平”(level):指指数数据据层层次次结结构构中中的的某某一一层层次次。例例如如,子子女女为为低低水水平平即水平即水平 1,家庭为高水平即水平,家庭为高水平即水平 2。“单位单位”(unit):指指数数据据层层次次结结构构中中某某水水平平上上的的一一个个实实体体。例例如如,每每个个子子女女是是一一个个水水平平 1 单单位位,每每个个家家庭庭是是一一个个水平水平 2 单位。单位。n 临床试验和动物实验的重复测量临床试验和动物实验的重复测量n 多中心临床试验研究多中心临床试验研究
3、n 纵向观测如儿童生长发育研究纵向观测如儿童生长发育研究n 流行病学现场调查如整群抽样调查流行病学现场调查如整群抽样调查n 遗传学家系调查资料遗传学家系调查资料n meta 分析资料分析资料 层次结构数据层次结构数据 非非独独立立数数据据,即即某某观观察察值值在在观观察察单单位位间间或或同同一一观观察察单单位位的的各各次次观观察察间间不不独独立立或或不不完完全全独独立立,其其大大小小常常用用组组内内相相关关(intra-class correlation,ICC)度度量。量。例例如如,来来自自同同一一家家庭庭的的子子女女,其其生生理理和和心心理理特特征征较较从从一一般般总总体体中中随随机机抽抽
4、取取的的个个体体趋趋向向于于更更为为相相似似,即即子子女女特特征征在在家家庭庭中中具具有有相相似似性性或或聚聚集集性性(clustering),数据是非独立的,数据是非独立的(non independent)。非非独独立立数数据据不不满满足足经经典典方方法法的的独独立立性性条条件件,采采用用经经典典方方法法可可能能失失去去参参数数估估计计的的有有效效性性并并导导致致不合理的推断结论。不合理的推断结论。但但非非独独立立数数据据的的组组内内相相关关结结构构各各异异,理理论论上上,不不同同的的结结构构应应采采用用相相应应的的统统计计方方法法。如如纵纵向向观观测测数数据据常常用用广广义义估估计计方方程
5、程(GEE),但但有有两两个个局局限限性性:一一是是对对误误差差方方差差的的分分解解仅仅局局限限于于2水水平平的的情情形形,二二是是没没有有考考虑虑解解释释变变量量对对误误差差方方差差的的影影响响。当当应应变变量量的的协协差差阵阵为为分分块块对对角角阵阵时时,一一般般采采用用多多水水平平模型。模型。经典方法框架下的分析策略经典方法框架下的分析策略 经经典典的的线线性性模模型型只只对对某某一一层层数数据据的的问问题题进进行行分分析析,而而不不能能将将涉涉及及两两层层或或多多层层数数据据的的问问题题进进行行综合分析。综合分析。但但有有时时某某个个现现象象既既受受到到水水平平1变变量量的的影影响响,
6、又又受受到到水水平平2变变量量的的影影响响,还还受受到到两两个个水水平平变变量量的交互影响的交互影响(cross-level interaction)。个个体体的的某某事事件件既既受受到到其其自自身身特特征征的的影影响响,也也受受到到其其生生活活环环境境的的影影响响,即即既既有有个个体体效效应应,也也有有环境或背景效应环境或背景效应(context effect)。例例如如,个个体体发发生生某某种种牙牙病病的的危危险险可可能能与与个个体体的的遗遗传传倾倾向向、个个体体所所属属的的社社会会阶阶层层(如如饮饮食食文文化化和和口口腔腔卫卫生生习习惯惯)、环环境境因因素素(如如饮饮水水中中氟氟浓浓度度
7、)等等有有关。关。n分解分解(disaggregation)n聚合聚合(aggregation)分分解解:不不满满足足模模型型独独立立性性假假定定,回回归归系系数数及及其其标标准准误误的的估估计计无无效效,且且未未能能有有效效区区分分个个体体效效应应与与背背景景效效应应。另另一一种种分分析析策策略略是是用用哑哑变变量量拟拟合合高高水平单位的固定效应。水平单位的固定效应。聚聚合合:损损失失大大量量水水平平1单单位位的的信信息息,更更严严重重的的是可能导致是可能导致“生态学谬误生态学谬误”(ecological fallacy)。多多水水平平分分析析的的概概念念为为人人们们提提供供了了这这样样一一
8、个个框框架架,即即可可将将个个体体的的结结局局联联系系到到个个体体特特征征以以及及个个体体所所在在环环境境或或背背景景特特征征进进行行分分析析,从从而而实实现现研研究究的的事事物物与与其其所所在在背背景景的的统一。统一。经经典典模模型型的的基基本本假假定定是是单单一一水水平平和和单单一一的的随随机机误误差差项项,并并假假定定随随机机误误差差项项独独立立、服服从从方方差差为为常常量量的的正正态态分分布布,代代表表不不能能用用模模型型解解释释的的残残留留的的随机成份。随机成份。基本的多水平模型基本的多水平模型 当当数数据据存存在在层层次次结结构构时时,随随机机误误差差项项则则不不满满足足独独立立常
9、常方方差差的的假假定定。模模型型的的误误差差项项不不仅仅包包含含了了模模型型不不能能解解释释的的应应变变量量的的残残差差成成份份,也也包包含含了了高高水水平平单单位自身对应变量的效应成份。位自身对应变量的效应成份。多多水水平平模模型型将将单单一一的的随随机机误误差差项项分分解解到到与与数数据据层层次次结结构构相相应应的的各各水水平平上上,具具有有多多个个随随机机误误差差项项并并估估计计相相应应的的残残差差方方差差及及协协方方差差。构构建建与与数数据据层层次次结结构构相相适适应应的的复复杂杂误误差差结结构构,这这是是多多水水平平模模型区别于经典模型的根本特征。型区别于经典模型的根本特征。多多水水
10、平平模模型型由由固固定定与与随随机机两两部部分分构构成成,与与一一般般的的混混合合效效应应模模型型的的不不同同之之处处在在于于,其其随随机机部部分分可可以以包包含含解解释释变变量量,故故又又称称为为随随机机系系数数模模型型(random coefficient model),其其组组内内相相关关也也可可为为解解释释变变量量的的函函数数。换换言言之之,多多水水平平模模型型可可对对不不同同水平上的误差方差进行深入和精细的分析。水平上的误差方差进行深入和精细的分析。1.方差成份模型方差成份模型 (Variance Component Model)假假定定一一个个两两水水平平的的层层次次结结构构数数据
11、据,医医院院为为水水平平 2 单单位位,患患者者为为水水平平 1 单单位位,医医院院为为相相应应总总体体的随机样本,模型中仅有一个解释变量的随机样本,模型中仅有一个解释变量 x。和和 分别为第分别为第 j 个医院中第个医院中第 i 个患者应变个患者应变量观测值和解释变量观测值,量观测值和解释变量观测值,和和 为参数估计为参数估计,为通常的随机误差项。为通常的随机误差项。示水平示水平 2 单位单位示水平示水平 1 单位单位与与经经典典模模型型的的区区别别在在于于 。经经典典模模型型中中的的估估计计为为 ,仅仅一一个个估估计计值值,表表示示固固定定的的截截距距,而而在在方方差差成成份份模模型型中中
12、 表表示示 j 个个截截距距值值,即即当当 x 取取 0 时时,第第 j 个医院在基线水平时个医院在基线水平时 y 的平均估计值。的平均估计值。为为平平均均截截距距,反反映映 与与 的的平平均均关关系系,即即当当 x 取取 0 时,所有时,所有 y 的总平均估计值。的总平均估计值。为为随随机机变变量量,表表示示第第 j 个个医医院院 y 之之平平均均估估计计值值与与总总均均数数的的离离差差值值,反反映映了了第第 j 个个医医院院对对 y 的的随机效应。随机效应。表表示示协协变变量量 x 的的固固定定效效应应估估计计值值。即即 y 与与协协变变量量 x 的的关关系系在在各各医医院院间间是是相相同
13、同的的,换换言言之之,医院间医院间 y 的变异与协变量的变异与协变量 x 的变化无关。的变化无关。方方差差成成份份模模型型拟拟合合 j 条条平平行行的的回回归归线线,截截距不同距不同(),斜率相同,斜率相同()。对医院水平残差的假定对医院水平残差的假定对患者水平残差的假定与传统模型一致对患者水平残差的假定与传统模型一致 水平水平 1 上的残差与水平上的残差与水平 2 上的残差相互独立上的残差相互独立,反反应应变变量量可可表表达达为为固固定定部部分分 与与随随机机部部分分 之之和和。模模型型具具有有两两个个残残差差项项,这这是是多多水平模型区别于经典模型的关键部分。水平模型区别于经典模型的关键部
14、分。即即水水平平2残残差差,随随机机效效应应、又又称称潜潜变变量量(latent variable)此此模模型型需需估估计计4个个参参数数,除除两两个个固固定定系系数数 和和 ,还还需需估估计计两两个个随随机机参参数数 和和 。其其中中 即即为为医医院院水平的方差成份,水平的方差成份,为患者水平的方差成份。为患者水平的方差成份。组内相关的度量组内相关的度量方差成份模型中,应变量方差为方差成份模型中,应变量方差为 此即水平此即水平 2 和水平和水平 1 方差之和。方差之和。同同一一医医院院中中两两个个患患者者(用用i1,i2 表表示示)间间的的协协方方差差为:为:组内相关组内相关(intra-c
15、lass correlation,ICC)测测量量了了医医院院间间方方差差占占总总方方差差的的比比例例,实实际际上上它它反反映映了了医医院院内内个个体体间间相相关关,即即水水平平 1 单单位位(患患者者)在在水水平平 2 单单位位(医医院院)中中的的聚聚集集性性或或相似性。相似性。由由于于模模型型不不止止一一个个残残差差项项,就就产产生生了了非非零零的的组组内内相相关关。若若 为为 0,表表明明数数据据不不具具层层次次结结构构,可可忽忽略略医医院院的的存存在在,即即简简化化为为传传统统的的单单水水平平模模型型;反反之之,若若存存在在非非零零的的 ,则不能忽略医院的存在。则不能忽略医院的存在。水
16、水平平 2 单单位位中中的的水水平平 1 单单位位间间存存在在相相关关,通通常常的的“普普通通最最小小二二乘乘法法”(Ordinary Least Squares OLS)进行参数估计是不适宜的。进行参数估计是不适宜的。进进一一步步,如如数数据据具具有有三三个个水水平平的的层层次次结结构构,如如医医院院、医医生生和和患患者者三三个个水水平平,则则将将有有两两个个这这样样的的相相关关系系数数,即即医医院院内内相相关关和医生内相关。和医生内相关。随随机机系系数数模模型型是是指指协协变变量量的的系系数数估估计计不不是是固固定定的的而而是是随随机机的的,即即协协变变量量对对反反应应变变量量的效应在不同
17、的水平的效应在不同的水平 2 单位间是不同的。单位间是不同的。仍仍以以医医院院与与患患者者两两水水平平数数据据结结构构说说明明随随机系数模型基本结构与假设。机系数模型基本结构与假设。随机系数模型随机系数模型(Random Coefficient Model)与方差成份模型的区别在于与方差成份模型的区别在于 。方差成份模型中协变量方差成份模型中协变量 的系数估计为固的系数估计为固定的定的 ,示协变量,示协变量 对反应变量的效应是固对反应变量的效应是固定不变的。在随机系数模型中协变量定不变的。在随机系数模型中协变量 的系数的系数估计为估计为 ,示每个医院都有其自身的斜率估计,示每个医院都有其自身的
18、斜率估计,表明协变量表明协变量 对反应变量的效应在各个医院间对反应变量的效应在各个医院间是不同的。是不同的。的假定及其含义与方差成份模型一的假定及其含义与方差成份模型一致。现致。现 为随机变量,假定:为随机变量,假定:表表示示第第 j 个个医医院院的的 y 随随 x 变变化化的的斜斜率率;表表示示全全部部医医院院的的 y 随随 x 变变化化的的斜斜率率的的平平均均值值(平均斜率平均斜率)。是是指指各各医医院院的的 y 随随 x 变变化化的的斜斜率率 的方差。的方差。示示第第 j 个个医医院院的的斜斜率率与与平平均均斜斜率率的的离离差差值值,指指上上述述截截距距离离差差值值与与斜斜率率离离差差值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 水平 统计 模型 研究生 教案
限制150内