如何通过建模控制混杂因素.ppt
《如何通过建模控制混杂因素.ppt》由会员分享,可在线阅读,更多相关《如何通过建模控制混杂因素.ppt(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、如何通过建模控制混杂因素现在学习的是第1页,共41页 1978 1978年年8 8月月9 9号美国一著名报纸刊登了一号美国一著名报纸刊登了一条科技信息:某单位对美国条科技信息:某单位对美国2020个城市做饮水个城市做饮水氟化研究,氟化研究,1010个城市的饮水氟化,而另个城市的饮水氟化,而另1010个个城市未氟化作对照,结论是:城市未氟化作对照,结论是:“饮水氟化有饮水氟化有致癌作用致癌作用”。但过了一个时期,该报纸又刊。但过了一个时期,该报纸又刊登了登了相反的相反的文章。文章。 案例:引水氟化是否有致癌作用?现在学习的是第2页,共41页 原来前述论文发表后,受到美国癌肿协会和英国统计协会的怀
2、疑,他们派人对该批数据重新做统计分析,其结论是:“饮水氟化没有发现有致癌作用,相反,却略有保护作用。两个结论差别如此之大,根源在于第一分析法未控制混杂,采用单因素分析法,而后一个结论则把两个城市中的种族、生活环境上的混杂因素进行控制(多元统计分析),再去比较两组城市的癌症患病率。现在学习的是第3页,共41页 案例:携带火柴和发生肺癌间有关系? 某研究者进行问卷调查,结果发现:是否携带火柴和肺癌患病率有关,携带火柴的人更有可能发生肺癌。 难道这表明携带火柴可能引起肺癌?! 客观事实:携带火柴不可能引起肺癌!现在学习的是第4页,共41页混杂因素的影响混杂因素的影响 携带火柴携带火柴 ? 肺癌肺癌
3、吸烟吸烟 这中间存在混杂因素-吸烟 现在学习的是第5页,共41页6一、混杂因素一、混杂因素 混杂(混杂(confounding):指在流行病学研究中,指在流行病学研究中, 由于由于一个或多个潜在的一个或多个潜在的混杂因素混杂因素的影响,掩盖或夸大了的影响,掩盖或夸大了研究研究因素与疾病(或事件)因素与疾病(或事件)之间的联系,从而使两者之间的真之间的联系,从而使两者之间的真正联系被错误地估计,造成正联系被错误地估计,造成混杂混杂。1. 概念概念 混杂因素(混杂因素(confounding factor):指与研究因素和研究指与研究因素和研究疾病均有关,若在比较的人群中分布不均,可以歪曲研究疾病
4、均有关,若在比较的人群中分布不均,可以歪曲研究因素与疾病之间真正联系的因素。因素与疾病之间真正联系的因素。现在学习的是第6页,共41页7 2. 混杂因素的基本特点:混杂因素的基本特点:(1)必须与)必须与所研究疾病所研究疾病有关有关(2)必须与)必须与所研究因素所研究因素有关有关(3)一定)一定不是研究因素与研究疾病因果链上的不是研究因素与研究疾病因果链上的中间变量中间变量 具备基本条件,如果在比较的人群中分布不均,即具备基本条件,如果在比较的人群中分布不均,即可导致偏倚。可导致偏倚。现在学习的是第7页,共41页策略策略 设计阶段设计阶段限制进入限制进入 随机化分组随机化分组匹配匹配 8 分析
5、阶段分析阶段分层分析分层分析 标准化标准化多因素分析多因素分析如何控制混杂因素?如何控制混杂因素?现在学习的是第8页,共41页二、如何通过建模控制混杂因素二、如何通过建模控制混杂因素现在学习的是第9页,共41页 表表1 1 数据形式数据形式(P(P2 2) ) 观察对象观察对象 X X1 1 X X2 2 X Xp p Y Y 1 a11 1 a11 a12 a12 a1p y1 a1p y1 2 a21 a22 2 a21 a22 a2p y2 a2p y2 n an1 an2 n an1 an2 anp yn anp yn 分因变量具体情况: y是计量资料,多元线性回归分析 y是定性资料,
6、尤其是二值资料,采用 Logistic回归分析 y=t是生存时间,后面有是否为完全数据标志,采用 COX回归分析 设在实际研究问题中,含有p个自变量x1, x2,xp;1个因变量,n个观察对象。现在学习的是第10页,共41页 在医学实践中,常会遇到一个应变量在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关院人数不仅与门诊人数有关, , 而且可能与而且可能与病床周转次数病床周转次数, , 床位数等有关;儿童的身床位数等有关;儿童的身高不仅与遗传有关还与生活质量,性别,高不仅与遗传有关还与生活质量,性别,地区,国别等有
7、关;人的体表面积与体重、地区,国别等有关;人的体表面积与体重、身高等有关。身高等有关。现在学习的是第11页,共41页多元线性回归模型多元线性回归模型 通过实验测得含有通过实验测得含有p p个自变量个自变量x1,x2,x3,x1,x2,x3,xp,xp及一及一个因变量个因变量y y的的n n个观察对象值个观察对象值, , 利用最小二乘法原理利用最小二乘法原理, , 建建立多元线性回归模型立多元线性回归模型: : 其中其中b b0 0为截距为截距, b1 ,b2 , b1 ,b2 bpbp称为偏回归系数称为偏回归系数. bi. bi表表示当将其它示当将其它p-1p-1个变量的作用加以固定后个变量的
8、作用加以固定后, Xi, Xi改变改变1 1个单位个单位时时Y Y将改变将改变bibi个单位个单位. . ppxbxbxbby 22110现在学习的是第12页,共41页 例:例: 27名糖尿病人的性别、年龄、血清名糖尿病人的性别、年龄、血清总胆固醇、甘油三脂、空腹胰岛素、糖化总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表血红蛋白、空腹血糖的测量值列于表3中中,试建立血糖与其它几项指标关系的多元线,试建立血糖与其它几项指标关系的多元线性回归方程。性回归方程。多元线性回归分析13现在学习的是第13页,共41页表表3 273 27名糖尿病人的血糖及有关变量的测量结果名糖尿病人的
9、血糖及有关变量的测量结果 14现在学习的是第14页,共41页15 资料的研究目的是建立血糖与其它因素的线资料的研究目的是建立血糖与其它因素的线性回归方程性回归方程 性别和年龄性别和年龄与应变量(血糖)含量有关,也可能与应变量(血糖)含量有关,也可能与自变量(血清总胆固醇、甘油三脂、空腹胰与自变量(血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白)有关,因此,怀疑性别岛素、糖化血红蛋白)有关,因此,怀疑性别、年龄为混杂因素、年龄为混杂因素 将混杂因素(性别和年龄)放到多元线性回将混杂因素(性别和年龄)放到多元线性回归模型中进行控制,从而更加准确地考察其归模型中进行控制,从而更加准确地考察其它自变
10、量与血糖的关系它自变量与血糖的关系现在学习的是第15页,共41页SPSS分析结果分析结果变 量 回归 系数 b 标准误 bS 标准回 归系数b t 值 P 值 常数项 6.4996 2.3962 0 2.713 0.0124 X2 0.4023 0.1540 0.3541 2.612 0.0156 X3 0.2870 0.1117 0.3601 2.570 0.0171 X4 0.6632 0.2303 0.4133 2.880 0.0084 结果为扣除结果为扣除性别和年龄两个混杂因素的影响性别和年龄两个混杂因素的影响后,后,各指标与血糖的关系各指标与血糖的关系16现在学习的是第16页,共41
11、页 在医学上在医学上, ,人们更关心疾病是否发生或发展的影响因素人们更关心疾病是否发生或发展的影响因素, ,既因变既因变量是二值的。量是二值的。 令:令: y=1 y=1 发病(阳性、死亡、治愈等)发病(阳性、死亡、治愈等) y=0 y=0 未发病(阴性、生存、未治愈等)未发病(阴性、生存、未治愈等) Logistic Logistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。现在学习的是第17页,共41页LogisticLogistic回归回归- Logistic-
12、Logistic回归种类回归种类成组资料的非条成组资料的非条件件LogisticLogistic回归回归配对资料的条件配对资料的条件LogisticLogistic回归回归两分类反应变量的两分类反应变量的LogisticLogistic回归回归多分类有序反应变量多分类有序反应变量LogisticLogistic回归回归多分类无序反应变量多分类无序反应变量LogisticLogistic回归回归1:11:1配对资料的条件配对资料的条件LogisticLogistic回归回归1:m1:m配对资料的条件配对资料的条件LogisticLogistic回归回归n:mn:m配对资料的条件配对资料的条件Lo
13、gisticLogistic回归回归LogisticLogistic回归分析回归分析现在学习的是第18页,共41页 表5 肺癌与危险因素的调查分析例号 是否患病 性别 吸烟 年龄 地区 1 1 1 0 30 0 2 1 0 1 46 1 3 0 0 0 35 1 30 0 0 0 26 1 注:是否患病中,0代表否,1代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。现在学习的是第19页,共41页 由上最大似然估计分析知因素X2(吸烟), X3(年龄)对肺癌的发生有影响。 所得的回归方程为: Logit(P)=-9.781+2.520X1+3.9
14、99X2+0.189X3- 1.3067X4现在学习的是第20页,共41页解 释 设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生的倍数。 当bi0时,对应的优势比(odds ratio,记为ORi):ORi=exp(bi)1,说明该因素是危险因素;当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是保护因素。 现在学习的是第21页,共41页弗明汉心血管疾病研究弗明汉心血管疾病研究 742名居住在弗明汉年龄为名居住
15、在弗明汉年龄为40-49岁的男性,在各岁的男性,在各自暴露不同水平的影响因素(详见下表中的自暴露不同水平的影响因素(详见下表中的6种因素种因素),经过),经过12年的追踪观察冠心病(年的追踪观察冠心病(CHD)的发病情况)的发病情况。 根据此根据此742名受试者每人暴露各项因素的水平名受试者每人暴露各项因素的水平和和CHD发病与否的资料,采用多因素发病与否的资料,采用多因素Logistic回归模回归模型进行分析。型进行分析。22多因素Logistic回归分析现在学习的是第22页,共41页 资料的研究目的是探讨资料的研究目的是探讨CHDCHD发病与否的危险因素发病与否的危险因素 血液中的胆固醇水
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 如何 通过 建模 控制 混杂 因素
限制150内