高级统计方法概论精选PPT.ppt
高级统计方法概论第1页,此课件共110页哦本章内容第一节 多重线性回归第二节 logistic回归分析第三节 生存分析第四节判别分析与聚类分析第五节 主成分分析与因子分析第六节 典型相关分析第2页,此课件共110页哦第一节第一节 多重线性回归多重线性回归一、应用范围:一、应用范围:生物医学现象的发生、发展和变化是多生物医学现象的发生、发展和变化是多种因素在一定条件下相互影响、相互制约产生的结果。例种因素在一定条件下相互影响、相互制约产生的结果。例如,影响原发性高血压发生的因素有年龄、性别、精神紧如,影响原发性高血压发生的因素有年龄、性别、精神紧张、劳动强度、吸烟状况、家族史等,这些因素中,哪些张、劳动强度、吸烟状况、家族史等,这些因素中,哪些是主要因素,各因素的大小如何,往往是研究者关心的问是主要因素,各因素的大小如何,往往是研究者关心的问题。题。多重线性回归就是研究多个自变量与一个应变量间的线多重线性回归就是研究多个自变量与一个应变量间的线性依存关系的统计分析方法。性依存关系的统计分析方法。它可以从一组实际数据出发,研究多个自变量和一个应变它可以从一组实际数据出发,研究多个自变量和一个应变量之间是否存在线性依存关系,若存在则找出适当的定量关系量之间是否存在线性依存关系,若存在则找出适当的定量关系式,并对其进行参数估计和假设检验,从而推断哪些自变量对式,并对其进行参数估计和假设检验,从而推断哪些自变量对应变量的影响是主要的,哪些是次要的,哪些是没有意义的;应变量的影响是主要的,哪些是次要的,哪些是没有意义的;并可利用回归方程对所研究的现象进行预测和控制并可利用回归方程对所研究的现象进行预测和控制第3页,此课件共110页哦二、应用条件条件二、应用条件条件第4页,此课件共110页哦建立回归方程建立回归方程(样本样本)(2)(2)对对回归方程回归方程及及各自变量各自变量做假设检验,并对方程的做假设检验,并对方程的拟拟合效果合效果及及各自变量的作用大小各自变量的作用大小做出评价。做出评价。(1)(1)求截距及偏回归系数求截距及偏回归系数三、多重线三、多重线性回归的一性回归的一般步骤般步骤标准化偏回归系数标准化偏回归系数R2,等,等方差分析和方差分析和t检验检验第5页,此课件共110页哦四、自变量筛选四、自变量筛选 前述方程中包括的自变量是研究者根据专业知识和经验事前述方程中包括的自变量是研究者根据专业知识和经验事先选择好的。然而在许多实际应用中,由于没有清晰的理论依先选择好的。然而在许多实际应用中,由于没有清晰的理论依据,回归模型中包括的自变量难以预先确定,为了避免由于引据,回归模型中包括的自变量难以预先确定,为了避免由于引入一些不重要的自变量,而使模型的精度降低,因此选择有意入一些不重要的自变量,而使模型的精度降低,因此选择有意义的自变量常常是回归分析的第一步。义的自变量常常是回归分析的第一步。基本思路:基本思路:尽可能将回归效果显著的自变量选入回归尽可能将回归效果显著的自变量选入回归方程中,作用不显著的自变量则排除在外。方程中,作用不显著的自变量则排除在外。模型的正确选择:模型的正确选择:根本依赖于所研究问题本身专业实践根本依赖于所研究问题本身专业实践第6页,此课件共110页哦自变量的筛选全局择优逐步选择调整R2CP统计量前进法后退法逐步回归法第7页,此课件共110页哦编号总胆固醇X1甘油三酯X2胰岛素X3糖化血X4血糖Y15.681.94.538.211.223.791.647.326.98.836.023.566.9510.812.344.851.075.888.311.654.62.324.057.513.4273.841.26.459.610.427名糖尿病人的血糖及有关变量的测量结果五、实例分析五、实例分析第8页,此课件共110页哦ModelVariables EnteredVariables Removed1糖化血X4.2总胆固醇X1.3胰岛素X3.4甘油三酯X2.5.总胆固醇X1第9页,此课件共110页哦Model Summary(f)ModelRR SquareAdjusted R SquareStd.Error of the Estimate1.610(a).372.3472.365062.696(b).484.4412.186723.740(c).547.4882.093514.775(d).601.5282.009545.773(e).598.5461.97213a Predictors:(Constant),糖化血b Predictors:(Constant),糖化血,总胆固醇c Predictors:(Constant),糖化血,总胆固醇,胰岛素d Predictors:(Constant),糖化血,总胆固醇,胰岛素,甘油三酯e Predictors:(Constant),糖化血,胰岛素,甘油三酯f Dependent Variable:血糖第10页,此课件共110页哦ANOVAModel Sum of SquaresdfMean SquareFSig.1Regression82.714182.71414.788.001(a)Residual139.837255.593 Total222.55226 2Regression107.790253.89511.271.000(b)Residual114.762244.782 Total222.55226 3Regression121.748340.5839.260.000(c)Residual100.804234.383 Total222.55226 4Regression133.711433.4288.278.000(d)Residual88.841224.038 Total222.55226 5Regression133.098344.36611.407.000(e)Residual89.454233.889 Total222.55226 第11页,此课件共110页哦a Dependent Variable:血糖ModelBStd.ErrortFSS(XJ)SSESig.1糖化血糖化血.978.2543.84514.78882.714139.837.0012糖化血糖化血.732.2592.8338.026.009总胆固醇总胆固醇.678.2962.2905.24425.067114.762.0313糖化血糖化血.635.2532.5076.285.020总胆固醇总胆固醇.545.2931.8613.463.076胰岛素胰岛素-.219.122-1.7853.18613.958100.804.0884糖化血糖化血.638.2432.6236.880.016总胆固醇总胆固醇.142.366.3900.1520.61388.841.701胰岛素胰岛素-.271.121-2.2294.968.036甘油三酯甘油三酯.351.2041.7212.96211.96388.841.0995糖化血糖化血.663.2302.8808.294.008胰岛素胰岛素-.287.112-2.5706.605.017甘油三酯甘油三酯.402.1542.6126.823.016第12页,此课件共110页哦六、多重线性回归的应用六、多重线性回归的应用第13页,此课件共110页哦七、多重线性回归应用的注意事项七、多重线性回归应用的注意事项1 1 1 1、应满足、应满足、应满足、应满足LINELINELINELINE条件条件条件条件 残差图残差图2 2 2 2、指标的数量化、指标的数量化、指标的数量化、指标的数量化 分类变量的哑变量设置见分类变量的哑变量设置见P327P3273 3 3 3、样本含量、样本含量、样本含量、样本含量n=(5n=(5n=(5n=(510)m10)m10)m10)m。4 4 4 4、“最优最优最优最优”回归方程的意义回归方程的意义回归方程的意义回归方程的意义所所谓谓的的“最最优优”回回归归方方程程并并不不一一定定是是最最好好的的,没没有有选选入方程的变量也未必没有统计学意义。入方程的变量也未必没有统计学意义。不同回归方程适应于不同用途,依专业知识定。不同回归方程适应于不同用途,依专业知识定。第14页,此课件共110页哦5 5 5 5、多多多多重重重重共共共共线线线线性性性性 即即即即指指指指一一一一些些些些自自自自变变变变量量量量之之之之间间间间存存存存在在在在较较较较强强强强的的的的线线线线性性性性关关关关系系系系。如如如如高高高高血血血血压压压压与与与与年年年年龄龄龄龄、吸吸吸吸烟烟烟烟年年年年限限限限、饮饮饮饮白白白白酒酒酒酒年年年年限限限限等等等等,这这这这些些些些自自自自变变变变量量量量通通通通常常常常是是是是高高高高度度度度相相相相关关关关的的的的,有有有有可可可可能能能能使使使使通通通通过过过过最最最最小小小小二二二二乘乘乘乘法法法法建建建建立立立立回回回回归归归归方方方方程程程程失失失失效效效效,引引引引起起起起下下下下列列列列一些不良后果:一些不良后果:一些不良后果:一些不良后果:(1 1 1 1)参参参参数数数数估估估估计计计计值值值值的的的的标标标标准准准准误误误误变变变变得得得得很很很很大大大大,从从从从而而而而t t t t值值值值变变变变得很小。得很小。得很小。得很小。(2 2 2 2)回回回回归归归归方方方方程程程程不不不不稳稳稳稳定定定定,增增增增加加加加或或或或减减减减少少少少某某某某几几几几个个个个观观观观察察察察值值值值,估计值可能会发生很大的变化。估计值可能会发生很大的变化。估计值可能会发生很大的变化。估计值可能会发生很大的变化。(3 3 3 3)t t t t检检检检验验验验不不不不准准准准确确确确,误误误误将将将将应应应应保保保保留留留留在在在在模模模模型型型型中中中中的的的的重重重重要要要要变量舍弃。变量舍弃。变量舍弃。变量舍弃。(4 4 4 4)估计值的正负符号与客观实际不一致。估计值的正负符号与客观实际不一致。估计值的正负符号与客观实际不一致。估计值的正负符号与客观实际不一致。第15页,此课件共110页哦6 6、残差分析、残差分析 残差分析是检查资料是否满足回归模型的前提假设残差分析是检查资料是否满足回归模型的前提假设以标准化残差为纵以标准化残差为纵坐标,为横坐标作坐标,为横坐标作残差图进行分析残差图进行分析第16页,此课件共110页哦回归分析的步骤l l做出散点图(简单线性回归、多重线性回归)l l考察数据的分布,进行必要的预处理(应变量)l l进行直线回归分析(模型建立,变量选择等)l l残差分析(模型前提假设)l l强影响点的诊断,多重共线性问题的判断l l结合专业知识对结果进行解释第17页,此课件共110页哦第二节第二节 logistic logistic回归分析回归分析 Logistic Logistic回归属于概率型非线性回归,它是研究回归属于概率型非线性回归,它是研究二分类观察结果(应变量)与一些影响因素(自变量)二分类观察结果(应变量)与一些影响因素(自变量)之间关系的一种多变量分析方法。之间关系的一种多变量分析方法。如食管癌的发生与吸烟、饮酒、不良饮食习如食管癌的发生与吸烟、饮酒、不良饮食习惯等危险因素的关系。惯等危险因素的关系。由于应变量为二分变量,因此不能用多重线由于应变量为二分变量,因此不能用多重线性回归分析此类资料,但两者的分析思路大致相性回归分析此类资料,但两者的分析思路大致相同。同。什么情况下采用什么情况下采用LogisticLogistic回归回归第18页,此课件共110页哦传统上常使用传统上常使用Mantel-HaenszelMantel-Haenszel分层分析方法,分层分析方法,但该方法主要适用于样本含量大、分析因素较但该方法主要适用于样本含量大、分析因素较少的情况。少的情况。第19页,此课件共110页哦一、一、logistic回归模型回归模型1 1、概率预报模型、概率预报模型 第20页,此课件共110页哦2 2、logisticlogistic回归模型的线性形式回归模型的线性形式 P P的的logitlogit变换变换第21页,此课件共110页哦3 3、logisticlogistic回归模型参数的意义回归模型参数的意义 1.1.表示暴露剂量为表示暴露剂量为0 0时个体发病与不发病概率之时个体发病与不发病概率之比的自然对数。比的自然对数。2.2.表示某危险因素表示某危险因素Xi增加一个单位时,即增加一个单位时,即Xi=1=1与与Xi=0=0相比,发生结果(相比,发生结果(Y=1=1)优势比的对数值。)优势比的对数值。第22页,此课件共110页哦P1(y=1/x=1)的概率)的概率P0(y=1/x=0)的概率)的概率第23页,此课件共110页哦 反映了在其他变量固定后,反映了在其他变量固定后,X=1X=1与与X=0X=0相相比发生比发生Y Y事件的对数优势比。事件的对数优势比。回归系数回归系数与与OR XOR X与与Y Y的关联的关联=0=0,OR=1 OR=1 无关无关 0 0,OROR1 1 有关,危险因素有关,危险因素0 0,OROR1 1 有关,保护因子有关,保护因子第24页,此课件共110页哦二、二、logisticlogistic回归模型的参数估计回归模型的参数估计最大似然估计最大似然估计-需借助统计软件完成需借助统计软件完成第25页,此课件共110页哦三、三、Logistic Logistic 回归模型的假设检验回归模型的假设检验1.1.1.1.检验一:对建立的整个模型做检验。检验一:对建立的整个模型做检验。检验一:对建立的整个模型做检验。检验一:对建立的整个模型做检验。检验方法检验方法检验方法检验方法1 1 1 1)似然比检验)似然比检验)似然比检验)似然比检验 (likelihood ratio test)(likelihood ratio test)(likelihood ratio test)(likelihood ratio test)2 2 2 2)WaldWaldWaldWald检验检验检验检验3 3 3 3)计分检验)计分检验)计分检验)计分检验(score test)(score test)(score test)(score test)说明自变量说明自变量对对Y的作用是的作用是否有统计意否有统计意义。义。第26页,此课件共110页哦2.2.2.2.检验二:检验模型中某检验二:检验模型中某检验二:检验模型中某检验二:检验模型中某是否对是否对是否对是否对Y Y Y Y有作用。有作用。有作用。有作用。检验假设:检验假设:检验统计量:主要为检验统计量:主要为WaldWald检验(检验(SASSAS软件)软件)=1的的2第27页,此课件共110页哦四、四、LogisticLogistic回归对变量做筛选回归对变量做筛选目的;将回归系数有显著意义的自变量选入目的;将回归系数有显著意义的自变量选入模型中,作用不显著的自变量则排除在外。模型中,作用不显著的自变量则排除在外。l l变量筛选算法有:前进法、后退法和逐步变量筛选算法有:前进法、后退法和逐步法(法(stepwisestepwise)。)。选用的检验统计量选用的检验统计量1 1)似然比检验)似然比检验(likelihood ratio test)(likelihood ratio test)2 2)WaldWald检验检验3 3)计分检验)计分检验(score test)(score test)第28页,此课件共110页哦例:冠心病的例:冠心病的8 8个可能危险因素与赋值个可能危险因素与赋值因素因素因素因素变量名变量名变量名变量名赋值说明赋值说明赋值说明赋值说明年龄年龄年龄年龄(岁岁岁岁)X X1 145=1,45=1,4545 54=2,54=2,5555 64=3,6564=3,65 =4=4高血压史高血压史高血压史高血压史X X2 2无无无无=0,=0,有有有有=1=1高血压家族史高血压家族史高血压家族史高血压家族史X X3 3无无无无=0,=0,有有有有=1=1吸烟吸烟吸烟吸烟X X4 4不吸不吸不吸不吸=0,=0,吸吸吸吸=1=1高血脂史高血脂史高血脂史高血脂史X X5 5无无无无=0,=0,有有有有=1=1动物脂肪摄入动物脂肪摄入动物脂肪摄入动物脂肪摄入X X6 6低低低低=0,=0,高高高高=1=1体重指数体重指数体重指数体重指数(BMI)(BMI)X X7 724=1,24=1,2424 26=2,00,说说明明变变量量X X增增加加时时,危危险险率率增增加加,即即X X是危险因素。是危险因素。l l0 Zc,判为A类Zi F0.19075368 10.48 16 232.82 .00010.88607445 1.06 9 187.55 0.39300.96095805 0.78 4 156 0.53690.99855863 0.11 1 79 0.7365典型相关系数近似典型相关系数近似F检验检验上述结果显示:只有第一典型相关系数在检验水准上述结果显示:只有第一典型相关系数在检验水准0.05的水平下具有统计学意义,因此只取第一对典型的水平下具有统计学意义,因此只取第一对典型相关变量,即相关变量,即(U1,V1)第107页,此课件共110页哦原始的原始的U典型相关变量典型相关变量U1U2U3U4x10.0004798914-0.001781814-0.003714269-0.002707137x20.0706511838-0.0791794280.1967768432-0.072684876x30.031623408-0.164553306-0.1423672950.4758579801x40.14142611070.42359214020.0445143775-0.162829541原始的原始的V典型相关变量典型相关变量V1V2V3V4y1-0.213227339-0.7705843860.63934370131.2359567071y20.0973092188-0.2223289660.1315108827-0.148150971y30.2612546248.42716001742.1739775052.7224014168y40.6271946045-0.712929109-2.682371341.741802709第108页,此课件共110页哦标准化的标准化的U典型相关变量典型相关变量U1U2U3 U4x10.1321-0.4906-1.0227-0.7454x20.4360-0.48861.2143-0.4485x30.1103-0.5737-0.49641.6591x40.48041.43900.1512-0.5532标准化的标准化的U典型相关变量典型相关变量 V1V2 V3 V4y1-0.1378-0.49790.41310.7986y20.6610-1.51030.8934-1.0064y30.05741.85000.47730.5977y40.3010-0.3421-1.28720.8358第109页,此课件共110页哦 由标准化的典型相关变量可知,由标准化的典型相关变量可知,U1 1主要受主要受X2 2(身高)和(身高)和X4 4(胸围)的影响,而(胸围)的影响,而V1 1则在则在Y2 2(跳(跳高)和高)和Y4 4(实心球掷远)上的权数较大。这说明(实心球掷远)上的权数较大。这说明个子较为高大的男孩在跳高和实心球掷远这两个子较为高大的男孩在跳高和实心球掷远这两个项目上的成绩较好。个项目上的成绩较好。至于在至于在V1 1的线性的线性表达式中的线性的线性表达式中Y1 1的系数符号为负,的系数符号为负,这意味着这意味着U1 1中的各变量与中的各变量与Y1 1呈负相关(因为呈负相关(因为U1 1中中各变量的系数全为正),可以这样解释:由于各变量的系数全为正),可以这样解释:由于Y1 1是是50m50m跑所需时间,因此,个子较大的男孩所需时间较跑所需时间,因此,个子较大的男孩所需时间较少,即跑的较快。少,即跑的较快。第110页,此课件共110页哦