如何通过建模控制混杂因素PPT课件.ppt
如何通过建模控制混杂因素第一张,PPT共四十一页,创作于2022年6月 19781978年年8 8月月9 9号号美美国国一一著著名名报报纸纸刊刊登登了了一一条条科科技技信信息息:某某单单位位对对美美国国2020个个城城市市做做饮饮水水氟氟化化研研究究,1010个个城城市市的的饮饮水水氟氟化化,而而另另1010个个城城市市未未氟氟化化作作对对照照,结结论论是是:“饮饮水水氟氟化化有有致致癌癌作作用用”。但但过过了了一一个个时时期期,该该报报纸纸又又刊刊登了登了相反的相反的文章。文章。案例:引水氟化是否有致癌作用?第二张,PPT共四十一页,创作于2022年6月 原来前述论文发表后,受到美国癌肿协会和英国统计协会的怀疑,他们派人对该批数据重新做统计分析,其结论是:“饮水氟化没有发现有致癌作用,相反,却略有保护作用。两个结论差别如此之大,根源在于第一分析法未控制混杂,采用单因素分析法,而后一个结论则把两个城市中的种族、生活环境上的混杂因素进行控制(多元统计分析),再去比较两组城市的癌症患病率。第三张,PPT共四十一页,创作于2022年6月 案例:携带火柴和发生肺癌间有关系?某研究者进行问卷调查,结果发现:是否携带火柴和肺癌患病率有关,携带火柴的人更有可能发生肺癌。难道这表明携带火柴可能引起肺癌?!客观事实:携带火柴不可能引起肺癌!第四张,PPT共四十一页,创作于2022年6月混杂因素的影响混杂因素的影响 携带火柴携带火柴?肺癌肺癌 吸烟吸烟 这中间存在混杂因素-吸烟 第五张,PPT共四十一页,创作于2022年6月6一、混杂因素一、混杂因素 混杂(混杂(confounding):指在流行病学研究中,指在流行病学研究中,由于由于一个或多个潜在的一个或多个潜在的混杂因素混杂因素的影响,掩盖或夸大了的影响,掩盖或夸大了研究因研究因素与疾病(或事件)素与疾病(或事件)之间的联系,从而使两者之间的真正之间的联系,从而使两者之间的真正联系被错误地估计,造成联系被错误地估计,造成混杂混杂。1.概念概念 混杂因素(混杂因素(confounding factor):指与研究因素和研究指与研究因素和研究疾病均有关,若在比较的人群中分布不均,可以歪曲研究因疾病均有关,若在比较的人群中分布不均,可以歪曲研究因素与疾病之间真正联系的因素。素与疾病之间真正联系的因素。第六张,PPT共四十一页,创作于2022年6月7 2.混杂因素的基本特点:混杂因素的基本特点:(1)必须与)必须与所研究疾病所研究疾病有关有关(2)必须与)必须与所研究因素所研究因素有关有关(3)一定)一定不是研究因素与研究疾病因果链上的不是研究因素与研究疾病因果链上的中间变量中间变量 具备基本条件,如果在比较的人群中分布不均,即可具备基本条件,如果在比较的人群中分布不均,即可导致偏倚。导致偏倚。第七张,PPT共四十一页,创作于2022年6月策略策略 设计阶段设计阶段限制进入限制进入 随机化分组随机化分组匹配匹配 8 分析阶段分析阶段分层分析分层分析 标准化标准化多因素分析多因素分析如何控制混杂因素?如何控制混杂因素?第八张,PPT共四十一页,创作于2022年6月二、如何通过建模控制混杂因素二、如何通过建模控制混杂因素第九张,PPT共四十一页,创作于2022年6月 表表1 1 数据形式数据形式(P(P2 2)观察对象观察对象 X X1 1 X X2 2 X Xp p Y Y 1 a11 1 a11 a12 a12 a1p y1 a1p y1 2 a21 a22 2 a21 a22 a2p y2 a2p y2 n an1 an2 n an1 an2 anp yn anp yn 分因变量具体情况:y是计量资料,多元线性回归分析 y是定性资料,尤其是二值资料,采用 Logistic回归分析 y=t是生存时间,后面有是否为完全数据标志,采用 COX回归分析 设在实际研究问题中,含有p个自变量x1,x2,xp;1个因变量,n个观察对象。第十张,PPT共四十一页,创作于2022年6月 在在医医学学实实践践中中,常常会会遇遇到到一一个个应应变变量量与与多多个个自自变变量量数数量量关关系系的的问问题题。如如医医院院住住院院人人数数不不仅仅与与门门诊诊人人数数有有关关,而而且且可可能能与与病病床床周周转转次次数数,床床位位数数等等有有关关;儿儿童童的的身身高高不不仅仅与与遗遗传传有有关关还还与与生生活活质质量量,性性别别,地地区区,国国别别等等有有关关;人人的的体体表表面面积积与与体体重重、身高等有关。身高等有关。第十一张,PPT共四十一页,创作于2022年6月多元线性回归模型多元线性回归模型 通通过过实实验验测测得得含含有有p p个个自自变变量量x1,x2,x3,x1,x2,x3,xp,xp及及一一个个因因变变量量y y的的n n个个观观察察对对象象值值,利利用用最最小小二二乘乘法法原原理理,建建立多元线性回归模型立多元线性回归模型:其其中中b b0 0为为截截距距,b1 b1,b2,b2 bpbp称称为为偏偏回回归归系系数数.bibi表表示示当当将将其其它它p-1p-1个个变变量量的的作作用用加加以以固固定定后后,XiXi改改变变1 1个个单位时单位时Y Y将改变将改变bibi个单位个单位.第十二张,PPT共四十一页,创作于2022年6月 例:例:27名糖尿病人的性别、年龄、血清名糖尿病人的性别、年龄、血清总胆固醇、甘油三脂、空腹胰岛素、糖化总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表血红蛋白、空腹血糖的测量值列于表3中,中,试建立血糖与其它几项指标关系的多元线性试建立血糖与其它几项指标关系的多元线性回归方程。回归方程。多元线性回归分析13第十三张,PPT共四十一页,创作于2022年6月表表3 273 27名糖尿病人的血糖及有关变量的测量结果名糖尿病人的血糖及有关变量的测量结果 14第十四张,PPT共四十一页,创作于2022年6月15资料的研究目的是建立血糖与其它因素的线性资料的研究目的是建立血糖与其它因素的线性回归方程回归方程性别和年龄性别和年龄与应变量(血糖)含量有关,也与应变量(血糖)含量有关,也可能与自变量(血清总胆固醇、甘油三脂、可能与自变量(血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白)有关,因此,空腹胰岛素、糖化血红蛋白)有关,因此,怀疑性别、年龄为混杂因素怀疑性别、年龄为混杂因素将混杂因素(性别和年龄)放到多元线性回归将混杂因素(性别和年龄)放到多元线性回归模型中进行控制,从而更加准确地考察其它自模型中进行控制,从而更加准确地考察其它自变量与血糖的关系变量与血糖的关系第十五张,PPT共四十一页,创作于2022年6月SPSS分析结果分析结果结果为扣除结果为扣除性别和年龄两个混杂因素的影响性别和年龄两个混杂因素的影响后,后,各指标与血糖的关系各指标与血糖的关系16第十六张,PPT共四十一页,创作于2022年6月 在医学上在医学上,人们更关心疾病是否发生或发展的影响因素人们更关心疾病是否发生或发展的影响因素,既因变既因变量是二值的。量是二值的。令:令:y=1 y=1 发病(阳性、死亡、治愈等)发病(阳性、死亡、治愈等)y=0 y=0 未发病(阴性、生存、未治愈等)未发病(阴性、生存、未治愈等)Logistic Logistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。第十七张,PPT共四十一页,创作于2022年6月LogisticLogistic回归回归-Logistic-Logistic回归种类回归种类成组资料的非条成组资料的非条件件LogisticLogistic回归回归配对资料的条件配对资料的条件LogisticLogistic回归回归两分类反应变量的两分类反应变量的LogisticLogistic回归回归多分类有序反应变量多分类有序反应变量LogisticLogistic回归回归多分类无序反应变量多分类无序反应变量LogisticLogistic回归回归1:11:1配对资料的条件配对资料的条件LogisticLogistic回归回归1:m1:m配对资料的条件配对资料的条件LogisticLogistic回归回归n:mn:m配对资料的条件配对资料的条件LogisticLogistic回归回归L Lo og gi is st ti ic c回回归归分分析析第十八张,PPT共四十一页,创作于2022年6月 表5 肺癌与危险因素的调查分析例号 是否患病 性别 吸烟 年龄 地区 1 1 1 0 30 0 2 1 0 1 46 1 3 0 0 0 35 1 30 0 0 0 26 1 注:是否患病中,0代表否,1代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。第十九张,PPT共四十一页,创作于2022年6月 由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌的发生有影响。所得的回归方程为:Logit(P)=-9.781+2.520X1+3.999X2+0.189X3-1.3067X4第二十张,PPT共四十一页,创作于2022年6月解 释 设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生的倍数。当bi0时,对应的优势比(odds ratio,记为ORi):ORi=exp(bi)1,说明该因素是危险因素;当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是保护因素。第二十一张,PPT共四十一页,创作于2022年6月弗明汉心血管疾病研究弗明汉心血管疾病研究 742名名居居住住在在弗弗明明汉汉年年龄龄为为40-49岁岁的的男男性性,在在各各自自暴暴露露不不同同水水平平的的影影响响因因素素(详详见见下下表表中中的的6种种因因素素),经经过过12年年的的追追踪踪观观察察冠冠心心病病(CHD)的发病情况。的发病情况。根根据据此此742名名受受试试者者每每人人暴暴露露各各项项因因素素的的水水平平和和CHD发发病病与与否否的的资资料料,采采用用多多因因素素Logistic回回归归模模型进行分析。型进行分析。22多因素Logistic回归分析第二十二张,PPT共四十一页,创作于2022年6月资料的研究目的是探讨资料的研究目的是探讨CHDCHD发病与否的危险因素发病与否的危险因素 血液中的胆固醇水平、血红蛋白浓度、血压水平、血液中的胆固醇水平、血红蛋白浓度、血压水平、吸烟量因素可能是吸烟量因素可能是CHDCHD发病的危险因素发病的危险因素年龄年龄既与胆固醇水平、血红蛋白水平、血压水平等因既与胆固醇水平、血红蛋白水平、血压水平等因素相关,又与素相关,又与CHDCHD是否发病相关,怀疑是否发病相关,怀疑年龄是混杂因素年龄是混杂因素使用多因素使用多因素Logistic回归分析,将年龄放到模型中进行控回归分析,将年龄放到模型中进行控制,考察制,考察CHDCHD发病的危险因素发病的危险因素23第二十三张,PPT共四十一页,创作于2022年6月24SPSS分析结果分析结果变量参数估计值 标准误OROR的95%CILowerUpper截距-13.2573年龄0.12160.04371.13001.03661.2303胆固醇(mg/dl)0.00700.00251.01001.00211.0120BP(mmHg)0.00680.00601.01000.99511.0187血红蛋白(g%)-0.00100.00980.99900.98001.0184吸烟(0,1,2,3)0.42230.10311.53001.24641.8671ECG(0,1)0.72060.40092.06000.93694.5103第二十四张,PPT共四十一页,创作于2022年6月影影响响生存时间的长短不仅与治疗措施有关,还可能与病人的体质,年龄,病情的轻重等多种因素有关。如何找出它们之间的关系呢?对生存资料不能用多元线性回归分析。1972年英国统计学家Cox DR.提出了一种能处理多因素生存分析数据的比例危险模型(Coxs proportional harzard model)Coxs proportional harzard model)。COX回归模型分析第二十五张,PPT共四十一页,创作于2022年6月2022/10/2026生存时间(survival time):疾病治疗的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短。所经历的时间称为生存时间。完全与不完全数据:一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的,称为完全数据;另一部分病人由于失访、意外事故、或到观察结束时仍存活等原因,无法知道确切的生存时间,它提供了不完全的信息,称为不完全数据(截尾数据、删失数据:censor datacensor data)。第二十六张,PPT共四十一页,创作于2022年6月27例例:某某医医师师对对1988年年收收治治的的16例例鼻鼻腔腔淋淋巴巴瘤瘤患患者者随随访访了了13年年,信信息息包包括括:年年龄龄(X1)、性性别别(X2)、疾疾病病分分期期(X3)、鼻鼻血血(X4)、放放疗疗(X5)、化化疗疗(X6),数数据据见见表表2,试试作作COX回归分析鼻腔淋巴瘤的危险因素。回归分析鼻腔淋巴瘤的危险因素。第二十七张,PPT共四十一页,创作于2022年6月28 表表2 2 鼻腔淋巴瘤患者随访资料编 项目登记 观察记录 整理 号 性别 年龄 分期 鼻血 放疗 化疗 开始日 终止日 结局 生存天数 1 1 45 2 2 0 1 88-1-17 89-8-17 1 578 2 0 36 2 2 0 1 88-1-21 92-4-17 1 1549 3 0 45 2 0 1 0 88-2-2 90-12-31 0 4717 0 51 2 2 1 0 88-12-1 95-5-22 1 2363 注:性别1为男性;放疗1表示采用,0表示未采用;结局1表示死亡。第二十八张,PPT共四十一页,创作于2022年6月该生存资料的研究目的是考察鼻腔淋巴瘤的该生存资料的研究目的是考察鼻腔淋巴瘤的 生存时间的危险因素生存时间的危险因素疾病分期(疾病分期(X3)、鼻血()、鼻血(X4)、放疗()、放疗(X5)、化疗)、化疗(X6),可能是鼻腔淋巴瘤患者生存时间的危险因),可能是鼻腔淋巴瘤患者生存时间的危险因素或者保护因素素或者保护因素性别和年龄性别和年龄可能是鼻腔淋巴瘤患者生存时间的混杂因可能是鼻腔淋巴瘤患者生存时间的混杂因素素因此使用因此使用COX回归分析控制混杂因素,探讨鼻腔淋巴回归分析控制混杂因素,探讨鼻腔淋巴瘤患者生存时间的危险因素。瘤患者生存时间的危险因素。29第二十九张,PPT共四十一页,创作于2022年6月30SPSS分析结果分析结果第i个因素的回归系数为bi,对应的风险比(risk ratio,记为RRi):RRi=exp(bi),表示在控制其它因素(包括混杂混杂因素因素)的情况下,该因素每增加一个单位时,风险度改变多少。Variables in the EquationBSEWalddfSig.RRRR的95%CILowerUpperStep 1X41.0840.4216.63010.010 2.9571.2956.747Step 2X41.3810.5306.79910.009 3.9781.40811.244X5-1.5890.6955.22110.022 0.2040.0520.797第三十张,PPT共四十一页,创作于2022年6月31在本例中放疗在本例中放疗X5,取值,取值0和和1,b=-1.589,RR=0.204,表示控制表示控制年龄、性别两个混杂因素年龄、性别两个混杂因素,以及疾病分期、是,以及疾病分期、是否化疗等因素前提下,化疗(水平否化疗等因素前提下,化疗(水平1)与不化疗(水平)与不化疗(水平0)比较,样本资料前者的风险度是后者的)比较,样本资料前者的风险度是后者的0.204倍倍(20.4%),提示),提示“放疗放疗”是保护因素。是保护因素。“鼻血鼻血”X4取值是取值是0、1、2,b=1.38,RR=3.979,表示,表示控制其它因素的前提下,样本资料该因素水平每增加控制其它因素的前提下,样本资料该因素水平每增加1个等级,风险度增加个等级,风险度增加3.979倍,提示倍,提示“鼻血鼻血”是危险因是危险因素。素。第三十一张,PPT共四十一页,创作于2022年6月COXCOX比例风险比例风险模型模型生存分析的生存分析的基础模型?基础模型?先进模型Kaplan-Meier方法方法(简称简称K-M法法)估计生存概率;估计生存概率;Log-rank方法比较两条或方法比较两条或多条生存曲线;多条生存曲线;Cox比例风险模型分析多比例风险模型分析多个潜在因素对生存时间的个潜在因素对生存时间的影响。影响。只考虑一种终点事件,其余只考虑一种终点事件,其余事件均作为删失事件处理;事件均作为删失事件处理;若存在多个终点及竞争风险若存在多个终点及竞争风险事件的情况下仍用单终点分事件的情况下仍用单终点分析方法,将会由于竞争风险析方法,将会由于竞争风险事件的存在导致对这些终点事件的存在导致对这些终点事件概率的估计偏差。事件概率的估计偏差。32第三十二张,PPT共四十一页,创作于2022年6月一般的生存时间过程:一般的生存时间过程:T0 事件事件1竞争风险过程:竞争风险过程:T0删失删失可能发生的终点事件可能发生的终点事件(endpoint)只有一个类型)只有一个类型事件事件1事件事件2事件事件m删失删失可能发生的终点事件有多个可能发生的终点事件有多个研究方法33考虑竞争事件:竞争风险模型考虑竞争事件:竞争风险模型第三十三张,PPT共四十一页,创作于2022年6月34首先需要注意变量的赋值方法首先需要注意变量的赋值方法 对自变量的结果值编码方法(习惯上称为对自变量的结果值编码方法(习惯上称为赋值)不同,则自变量的对应参数估计值及符赋值)不同,则自变量的对应参数估计值及符号将有所不同,从而对结果的解释方式亦不同号将有所不同,从而对结果的解释方式亦不同三、建模控制混杂因素中的注意事项第三十四张,PPT共四十一页,创作于2022年6月单因素分析的必要性第三十五张,PPT共四十一页,创作于2022年6月第三十六张,PPT共四十一页,创作于2022年6月 某研究者探讨成人过敏性鼻炎的环境危险因素,某研究者探讨成人过敏性鼻炎的环境危险因素,采用采用1 1配对的病例配对的病例-对照研究设计,选择某医院耳对照研究设计,选择某医院耳鼻喉科确诊的鼻喉科确诊的100例过敏性鼻炎患者为病例;同时选例过敏性鼻炎患者为病例;同时选择该院耳鼻喉科确诊的非过敏性鼻炎患者,与病例择该院耳鼻喉科确诊的非过敏性鼻炎患者,与病例1 1相匹配为对照。通过问卷调查的方法收集两相匹配为对照。通过问卷调查的方法收集两组人群的一般社会人口学特征、疾病健康状况、组人群的一般社会人口学特征、疾病健康状况、吸烟史、职业接触史、室内环境状况及家族史吸烟史、职业接触史、室内环境状况及家族史等信息。问卷的统计分析采用多因素的条件等信息。问卷的统计分析采用多因素的条件Logsitic回归分析。回归分析。37注意哑变量的使用第三十七张,PPT共四十一页,创作于2022年6月38分析变量及赋值表分析变量及赋值表变量变量赋值赋值是否吸烟是否吸烟1=是,是,0=否否家人是否吸烟家人是否吸烟1=是,是,0=否否住房类型住房类型1=7层,层,0=7层层是否装修是否装修1=是,是,0=否否装修材料获得途径装修材料获得途径1=自己购买,自己购买,2=正规公司,正规公司,3=非正规公司非正规公司搬入时有无异味搬入时有无异味1=是,是,0=否否居室地面材料居室地面材料1=毛毯,毛毯,2=木地板,木地板,3=地砖,地砖,4=地板革,地板革,5=水泥水泥居室内壁材料居室内壁材料1=石灰粉,石灰粉,2=涂料,涂料,3=软包,软包,4=壁纸,壁纸,5=其他其他家具的材料家具的材料1=实木,实木,2=密度板,密度板,3=混合,混合,4=其他其他厨房与居室是否分开厨房与居室是否分开1=是,是,0=否否厨房排烟设备种类厨房排烟设备种类1=油烟机,油烟机,2=排风扇,排风扇,3=抽烟烟罩,抽烟烟罩,4=无无排烟道通向排烟道通向1=无,无,2=室外,室外,3=墙内烟道,墙内烟道,4=楼内走廊楼内走廊做饭的污染程度做饭的污染程度1=无,无,2=轻度,轻度,3=中度,中度,4=重度重度食用油种类食用油种类1=色拉油,色拉油,2=菜籽油,菜籽油,3=花生油,花生油,4=其他其他第三十八张,PPT共四十一页,创作于2022年6月释疑:释疑:资料的研究目的是探讨成人过敏性鼻炎的环境危险因素,应变量为是否患过敏性鼻炎,为二值变量,自变量都是定性变量,其中有二值的定性变量、多值有序的定性变量和多值名义的定性变量。对于二值变量,通常将其量化(通常赋0和1两种值)后代入回归方程;对于多值名义变量,则需要产生哑变量,然后将哑变量引入回归模型进行分析,如果该变量有k个水平的话,则应该产生k1个哑变量,此时,回归方程中将有k1个回归系数与之对应;如果自变量是多值有序变量,有两种处理方式,可以量化后按连续变量处理,也可以像多值名义变量那样产生哑变量。第三十九张,PPT共四十一页,创作于2022年6月要多看书、多请教,对于复杂方法,可通过要多看书、多请教,对于复杂方法,可通过合作来提高层次、避免错误!合作来提高层次、避免错误!一看、二问、三知道!第四十张,PPT共四十一页,创作于2022年6月感感谢谢大大家家观观看看2022/10/20第四十一张,PPT共四十一页,创作于2022年6月