二分类资料的多水平模型精品资料课件.ppt
《二分类资料的多水平模型精品资料课件.ppt》由会员分享,可在线阅读,更多相关《二分类资料的多水平模型精品资料课件.ppt(126页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、二分类资料的多水平分析二分类资料的多水平分析张菊英张菊英 教授教授l数据的层次结构(hierarchical structure)现象是广泛存在的,这种结构可以是自然的,亦可以是人为形成的。 试验研究试验研究 l致畸试验致畸试验 常用孕鼠作试验 ,观察每个孕鼠所产子代中发生畸形的情况 。l层次结构:孕鼠1子鼠m1子鼠1 子鼠2。孕鼠2子鼠mp子鼠1 子鼠2。子鼠m2子鼠1 子鼠2。孕鼠p窝别效应窝别效应l某省调查其农村居民的卫生服务某省调查其农村居民的卫生服务 随机抽取30个乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取33户(家庭),对每个家庭前半年内的常住人口进行问卷调查。 l具有明显
2、的层次结构层次结构(乡镇 行政村 户 个体) ; l在经济水平、生活方式、生活习惯上都具有某种程度上的相似性或聚集性 ;个体的数据是非独立非独立的 。通常处理方式通常处理方式l结果变量为连续性或定量结果变量为连续性或定量 如研究某药物对仔鼠体重的影响,可用方差分析分离出区组间效应(如窝别效应),然后比较试验组与对照组仔鼠体重的差异 通常处理方式通常处理方式u两组的畸形发生率,用两个率的差别的Z检验或 检验进行比较u 如需要控制混杂因素,采用多因素的logistic回归等方法 。 2通常处理方式通常处理方式 二分类反应变量的单水平模型二分类反应变量的单水平模型 l例例5.1 某公共卫生学院营养与
3、食品卫生学教研室用孕鼠进行口服花粉的致畸实验,将26 只孕鼠随机分为甲、乙两组,甲组在孕早期每天给予辐射花粉2000mg/kg , 乙组每天给予500mg/kg 。待孕鼠分娩后,观察其子鼠骨骼畸形的发生情况。不同处理的孕鼠所产仔鼠骨骼畸形发生结果不同处理的孕鼠所产仔鼠骨骼畸形发生结果注:分母表示该窝仔鼠总数,分子表示仔鼠中骨骼畸形发生数l忽略窝别效应,直接进行两组仔鼠畸形发生率的比较,可采用单水平的logistic回归模型模型01 logit( )iiiyPx B()( )(1)iiiiiiiyin nVar Pn,为应变量:1 表示发生畸形 0 表示未发生畸形为处理因素 :1 表示高剂量花粉
4、(甲组) 0 表示低剂量花粉(乙组) ixiy各软件对例各软件对例5.15.1拟合单水平拟合单水平logisticlogistic回归模型结果回归模型结果结果解释结果解释l甲组相对于乙组,仔鼠发生畸形的比数比的对数值(ln OR)为0.773,P0.043。l由结果可见,忽略窝别效应,处理因素(甲、乙两种喂养方式)对结果的影响有统计学意义,高剂量花粉比低剂量花粉更容易发生仔鼠畸形。讨论讨论l对于例5.1,单水平logistic回归分析处理效应的检验结果P值接近检验水准0.05,这一结果可靠程度值得怀疑讨论讨论l试验中仔鼠畸形在窝别间存在聚集性聚集性,仔鼠发生畸形的概率不是完全独立的,数据不再服
5、从二项分布l若仍用单水平logistic回归处理这类资料,则会低估两个率差别的标准误,从而增大犯型错误型错误的概率,即将本来无差别的两个率判为有差别广义线性模型广义线性模型l实际上logistic回归模型只是广义线性模型(generalized linear model,GLM)的一种l广义线性模型是一般线性模型的直接推广l很多模型属于非线性模型,如指数模型、logistic回归模型等,它们通过一定的变量变换,可以转化成线性模型,并满足或近似满足线性模型分析的要求广义线性模型的一般形式广义线性模型的一般形式1()piijijgX1,2,in 是已知的设计矩阵 是待估的未知参数 是连接函数()i
6、jn pXx1(,)Tp)(g广义线性模型表示为以下三部分广义线性模型表示为以下三部分随机部分:随机部分: 结果变量Y,服从指数族概率分布, ( )E Y系统部分系统部分l通过协变量 产生线性预测值 , 1pjjX1,.,pXX连接函数连接函数随机部分和系统部分由下式联系在一起 其中 被称为连接函数。( )g)(gl连接函数有多种,应根据应变量的特点加以选择。l应变量与不同的连接函数就构成了不同的回归模型应变量为二项分布时常用的连接函数应变量为二项分布时常用的连接函数probitprobit模型模型lprobit模型在教育领域应用较多lprobit模型中,与 相应的是正态分布的下侧累计概率函数
7、。因此系数 的解释是当其它自变量不变时,自变量改变一个单位时,所导致的“概率单位”的改变。iprobitprobit模型模型l概率单位在数学上的意义是很明确的,但在生物学上没有合适的解释,因此probit回归在流行病学应用上尚未普及的原因l对多数资料来说,logistic回归模型与probit模型的估计概率相近各软件对例各软件对例5.15.1拟合单水平拟合单水平probitprobit回归结回归结果果 优势优势 处理具有层次结构特征的数据资料,可将传处理具有层次结构特征的数据资料,可将传统模型中的随机误差项分解到与数据层次结构统模型中的随机误差项分解到与数据层次结构相应的水平上,使得个体的随机
8、误差更纯相应的水平上,使得个体的随机误差更纯 。二项分布二项分布 当反应变量为比数(率),一般采用二项分布。 标准二项分布假定的比数(率): Bin(,)ijijijyni指示水平1单位,j指示水平2单位, 为比数(率)的分母,在未分组数据的情况下, 。ijn1ijn 两水平两水平logitlogit模型模型 001logit()()ijjijPux000jju020(0,)()(1)/juijijijijuNVar Pn,两水平两水平logitlogit模型模型l 为处理因素的效应参数,又称固定效应(fixed effect)参数 l 为水平2单位的logit均值 与总均值 之差,又称为随机
9、效应(random effect)或高水平的残差。10 ju0 j0两水平两水平logitlogit模型模型l 的方差 又称为随机参数(random coefficient),反映了高水平单位间的比数(率)的差别。 l 越大说明数据在高水平单位内的聚集性越强。 l 为0时,该模型演变为一般的logistic回归模型。0 ju20u20u20u两水平两水平logitlogit模型模型l 为尺度参数。当反应变量确定服从二项分布,则尺度参数应该为1或接近1。即当模型的固定效应参数和随机效应参数的估计值确定后,反应变量的方差估计值为 (1)/ijijijn两水平两水平logitlogit模型模型l拟合
10、模型时,若假设二项方差成立,则设置尺度参数 为1l可允许 为待估参数,对水平1方差是否“超二项变异” 进行检验,即考察水平1方差是否满足二项分布的假定,可根据估计的尺度参数值和1.0的差值与的估计标准误之比作正态性Z检验而得。判断是否存在高水平效应判断是否存在高水平效应l密切结合专业知识和具体情况进行判断l对随机参数 的估计值做检验 l用VPC(variance partition coefficient)来进行度量 02uVPC l当应变量为连续型变量时,VPC等价于组内相关系数(intra-class correlation)l在两水平的方差成分模型中, VPC表示了水平2的方差占总方差的
11、比例)/(202020euuVPCl当应变量为离散型变量时,VPC与ICC不等价l以二项分布的资料为例,水平1的方差依赖于模型中解释变量的值,因此没有一个简单的方法来计算VPC l假设lm个水平2方差 的样本l在已知的固定效应 估计下,m个水平2单位的方差均值的经验估计为:020(0,)juuN12var()var exp1 expmmmxx 1var exp1expmmLLxl水平1误差的经验值 11/mmmm221VPC/()操作过程l1. 产生m个正态分布的随机数,记为r,例如m5 000,通常大样本为佳l2. 确定变量的值,根据已拟合的模型计算模型中的线性部分(L指示的部分),由此获得
12、m个所估计模型的样本 方差成分模型,L为随机斜率模型,L为2220011012uucuccrxxx001ucrxl3. 计算m个模型样本的估计反应率 1exp1 expmmmLLl4. 对m个计算经验方差获得22/mmmEml5.计算m个的水平1的二项分布误差,然后取其平均值得到水平1误差的经验值, 11/mmmml6.计算VPC221VPC/()两水平模型的应用两水平模型的应用l对例5.1,在进一步考虑了“窝别效应”后,该资料可看作具有两个水平的层次结构,即:孕鼠水平(水平2 单位)与仔鼠水平(水平1 单位) ;甲、乙两种喂养方式是解释变量;仔鼠是否发生畸形是反应变量。各软件对例各软件对例5
13、.15.1拟合方差成分模型结果拟合方差成分模型结果l以MLwiN的拟合结果为例,水平2 单位(不同孕鼠之间)的随机效应残差(即窝别效应)方差为3.423,标准误为1.554, Wald检验结果为4.852,P0.028。可以认为不同窝别的仔鼠骨骼畸形的发生概率是不同的,“窝别效应”存在l在考虑了“窝别效应”后,处理因素的系数为1.078,标准误为0.993, OR 2.939,由于P0.05,因此,尚不能认为给孕鼠喂养大剂量的辐射花粉会引起仔鼠骨骼畸形发生增加078. 1e进一步分析窝别效应的强度进一步分析窝别效应的强度l 当处理因素取值为0时,VPC0.293,因此在乙组中,有29.3的残差
14、方差归因于窝别效应l当处理因素取值为1时,VPC0.344,说明在甲组中,有34.4的残差方差归因于窝别效应l 由此例分析可见,当数据存在随机效应时,忽略此效应拟合的单水平模型增大了处理效应的I型误差,使得本来无统计学意义的因素误认为有统计学意义。l通过解释变量(本例为甲、乙两个处理组)的各种组合,可以得到VPC的取值范围。本例VPC为0.2930.344之间。因此大概有30的残差变异归因于窝别效应。 例例5.2 某省进行了农村贫困居民的家庭卫生服务调查。先随机抽取乡镇,每个乡镇分别抽取2个行政村,每个村再随机抽取一定数量的家庭进行调查。共调查了30个乡镇,832户贫困家庭户,共计2369名1
15、5岁及以上的居民。 现拟探讨该省农村贫困居民卫生服务需要的影响因素。 以两周是否患病作为应变量。结合资料的层次结构特点,采用二分类多水平logit回归模型探讨农村贫困居民两周是否患病的影响因素。 变量赋值表(1)变量名称变量名称应变量应变量两周患病 uncomfor人口学特征人口学特征性别 gender民族 ethnic年龄(岁) agegroup婚姻状况 marriage文化程度 edu职业 occupy医疗保险 insure定义及赋值定义及赋值0 否 1 是0 男 1 女0 汉族 1 其他0 15 1 45 2 65 0 未婚 1 已婚 2 离婚 3 丧偶0 文盲半文盲 1 小学 2 初中
16、及以上0 非农业劳动者 1 农业劳动者 2 学生 3 离退休 4 无业、失业、半失业者0 无 1 有变量赋值表(2)健康相关因素健康相关因素自身健康状况评价 self_assess hea_stat吸烟 smoke饮酒 drink家庭一般情况家庭一般情况家庭饮水类型 water家庭户厕类型 bathroom易得的最快方式去最近医疗点时间(分钟) tim_hosp年人均收入(元) income0 好 1 中 2 差0 否 1 吸0 否、少量 1 经常饮0 自来水 1 非自来水0 卫生厕所 1 非卫生厕所0 637 1 6381000变量赋值表(3)乡镇特征乡镇特征乡镇地理地貌 geography
17、个体水平户水平乡镇水平0 山区 1 非山区idfamilyrural家庭人均居住面积和乡镇人均可耕地面积以连续性变量形式中心化之后纳入模型;无序多分类变量婚姻状况和职业以哑元形式纳入;有序多分类变量年龄、文化程度和自身健康状况评价,是以分组线性变量或哑元的形式纳入,依据似然比检验结果加以判断。 有序多分类变量纳入模型方式检验结果有序多分类变量纳入模型方式检验结果P 变量变量年龄文化程度自我健康状况评价模型模型2552.0792643.1932073.270模型模型2543.9982628.6932073.078G 8.08114.500 0.1921110.00450.00010.6613 年
18、龄和文化程度以哑元形式纳入;自我健康状况评价以分组线性变量形式纳入模型。 哑变量名定义哑变量名定义 lage1:45,age2:65 ;lmarriage1:已婚,marriage2:离婚, marriage3:丧偶;leducation1:小学,education2:初中及以上;loccupation1:农业劳动者,occupation2:学生, occupation3:离退休 occupation4:无业、失业、半失业 以户作为高水平即水平2,个体作为低水平即水平1,采用2阶 PQL算法(后面具体讲解)拟合二水平不含任何解释变量的零模型,固定尺度参数为1。 两周是否患病两水平零模型102u
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 资料 水平 模型 精品 课件
限制150内