《一、线性回归分析.ppt》由会员分享,可在线阅读,更多相关《一、线性回归分析.ppt(69页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、一、线性回归分析一、线性回归分析 线性回归是统计分析方法中最常用的方法之一。线性回归是统计分析方法中最常用的方法之一。如果所研究的现象有若干个影响因素,且这些如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象线性回归的方法建立现象 (因变量)与影响因(因变量)与影响因素(自变量)之间的线性函数关系式。素(自变量)之间的线性函数关系式。由于多元线性回归的计算量比较大,所以有必由于多元线性回归的计算量比较大,所以有必要应用统计分析软件实现。要应用统计分析软件实现。SPSS软件中进行线性回归分析的选择项为软件
2、中进行线性回归分析的选择项为AnalyzeRegressionLinear。如图所。如图所示。示。(一)双变量线性回归(一)双变量线性回归某医师测得某医师测得1010名名3 3岁儿童的身高(岁儿童的身高(cmcm)、体重)、体重(kgkg)和体表面积()和体表面积(cm2cm2)资料如下。试用多元回)资料如下。试用多元回归方法确定以身高、体重为自变量,体表面积为归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。应变量的回归方程。儿童编号儿童编号体表面积(体表面积(Y Y)身高(身高(X X1 1)体重(体重(X X2 2)1 12 23 34 45 56 67 78 89 91010
3、5.3825.3825.2995.2995.3585.3585.2925.2925.6025.6026.0146.0145.8305.8306.1026.1026.0756.0756.4116.41188.088.087.687.688.588.589.089.087.787.789.589.588.888.890.490.490.690.691.291.211.011.011.811.812.012.012.312.313.113.113.713.714.414.414.914.915.215.216.016.01、数据准备、数据准备激活数据管理窗口,定义变量名:体表面积为激活数据管理窗口,
4、定义变量名:体表面积为Y Y,保留,保留3 3位小数;身高、体重分别为位小数;身高、体重分别为X1X1、X2X2,1 1位小数。输入原始数据,结果如图位小数。输入原始数据,结果如图8.18.1所示。所示。2、统计分析、统计分析激活激活AnalyzeAnalyze菜单选菜单选RegressionRegression中的中的Linear.Linear.项,项,弹出弹出Linear RegressionLinear Regression对话框。对话框。选选y y,点击,点击 钮使之进入钮使之进入DependentDependent框;框;选选x1x1、x2x2,点击,点击 钮进入钮进入Indepen
5、tdent(sIndepentdent(s)框;框;在在MethodMethod处下拉菜单,共有处下拉菜单,共有5 5个选项:个选项:EnterEnter(全部(全部入选法)、入选法)、StepwiseStepwise(逐步法)、(逐步法)、RemoveRemove(强制剔(强制剔除法)、除法)、BackwardBackward(向后法)、(向后法)、ForwardForward(向前法)(向前法)。本例选用本例选用EnterEnter法,点击法,点击OKOK钮即完成分析。钮即完成分析。点击点击Statistics.Statistics.钮选择是否作变量的描述性统钮选择是否作变量的描述性统计、
6、回归方程应变量的可信区间估计等分析;计、回归方程应变量的可信区间估计等分析;点击点击Plots.Plots.钮选择是否作变量分布图(本例要钮选择是否作变量分布图(本例要求对标准化求对标准化Y Y预测值作变量分布图);预测值作变量分布图);点击点击Save.Save.钮选择对回归分析的有关结果是否作钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的保存(本例要求对根据所确定的回归方程求得的未校正未校正Y Y预测值和标准化预测值和标准化Y Y预测值作保存);预测值作保存);点击点击Options.Options.钮选择变量入选与剔除的钮选择变量入选与剔除的、值和缺失值的处理
7、方法。值和缺失值的处理方法。3、结果解释、结果解释本例以本例以X1X1、X2X2为自变量,为自变量,Y Y为应变量,采用全部入为应变量,采用全部入选法建立回归方程。选法建立回归方程。回归方程的复相关系数为回归方程的复相关系数为0.949640.94964,决定系数(即,决定系数(即r2r2)为)为0.901810.90181,经方差分析,经方差分析,F=34.14499F=34.14499,P=0.0003P=0.0003,回归方程有效。,回归方程有效。回归方程为回归方程为Y=0.0687101X1+0.183756X2-2.856476Y=0.0687101X1+0.183756X2-2.8
8、56476。本例要求按所建立的回归方程计算本例要求按所建立的回归方程计算Y Y预测值和标准预测值和标准化化Y Y预测值(所谓标准化预测值(所谓标准化Y Y预测值是指将根据回归方预测值是指将根据回归方程求得的程求得的Y Y预测值转化成按均数为预测值转化成按均数为0 0、标准差为、标准差为1 1的的标准正态分布的标准正态分布的Y Y值)并将计算结果保存入原数据值)并将计算结果保存入原数据库。库。系统将原始的系统将原始的X1X1、X2X2值代入方程求值代入方程求Y Y值预测值(即值预测值(即库中库中pre_1pre_1栏)和标准化栏)和标准化Y Y预测值。预测值。本例还要求对标准化本例还要求对标准化
9、Y Y预测值作变量分布图,系预测值作变量分布图,系统将绘制的统计图送向统将绘制的统计图送向Chart CarouselChart Carousel窗口,双窗口,双击该窗口可见下图显示结果。击该窗口可见下图显示结果。Y Y 401.739401.73967.92267.922Y Y 1190.0171190.017793.915793.915例:为了考察火柴销售量的影响因素,选择煤气例:为了考察火柴销售量的影响因素,选择煤气户数、卷烟销量、蚊香销量、打火石销量作为影户数、卷烟销量、蚊香销量、打火石销量作为影响因素,得数据表。响因素,得数据表。建立火柴销售量对于相关因素煤气户数、卷烟销建立火柴销售
10、量对于相关因素煤气户数、卷烟销量、蚊香销量、打火石销量的线性回归模型,通量、蚊香销量、打火石销量的线性回归模型,通过对模型的分析,找出合适的线性回归方程。过对模型的分析,找出合适的线性回归方程。(二)多元线性回归分析(二)多元线性回归分析年份年份火柴销售量火柴销售量(万件)(万件)煤气户数煤气户数(万户)(万户)卷烟销量卷烟销量(百箱)(百箱)蚊香销量蚊香销量(十万盒)(十万盒)打火石销量打火石销量(百万粒)(百万粒)757526.7126.7141.1641.1645.1645.1626.3926.3917.0817.08767631.1931.1945.7345.7352.4652.462
11、7.0427.047.397.39777730.530.550.5950.5945.345.323.0823.083.883.88787829.6329.6358.8258.8246.846.824.4624.4610.5310.53797929.6929.6965.2865.2851.1151.1133.8233.8220.0920.09808029.2529.2571.2571.2553.2953.2933.5733.5721.2221.22818131.0531.0573.3773.3755.3655.3639.5939.5912.6312.63828232.2832.2876.6876
12、.68545448.4948.4911.1711.171 1、打开数据文件,单击、打开数据文件,单击Analyze Analyze Regression Regression Linear Linear打开打开Linear Linear 对话框如图所示。对话框如图所示。v2 2、从左边框中选择因变量、从左边框中选择因变量Y Y进入进入Dependent Dependent 框内,框内,选择一个或多个自变量进入选择一个或多个自变量进入IndependentIndependent框内。框内。v从从Method Method 框内下拉式菜单中选择回归分析方法:框内下拉式菜单中选择回归分析方法:强行进
13、入法强行进入法(Enter)(Enter),消去法,消去法(Remove)(Remove),向前选择法,向前选择法(Forward)(Forward),向后剔除法,向后剔除法(Backward)(Backward)及逐步回归法及逐步回归法(Stepwise)(Stepwise)五种。五种。v本例中选择逐步回归法本例中选择逐步回归法(Stepwise)(Stepwise)。Enter(Enter(强迫引入法默认选择项强迫引入法默认选择项)定义的全部自变定义的全部自变量均引入方程;量均引入方程;Remove(Remove(强迫剔除法强迫剔除法)定义的全部自变量均删除;定义的全部自变量均删除;For
14、ward(Forward(向前引入法向前引入法)自变量由少到多一个一个自变量由少到多一个一个引入回归方程,直到不能按检验水准引入新的变引入回归方程,直到不能按检验水准引入新的变量为止。该法的缺点是:当两个变量一起时效果量为止。该法的缺点是:当两个变量一起时效果好单独时效果不好,有可能只引入其中一个变量好单独时效果不好,有可能只引入其中一个变量或两个变量都不能引入。或两个变量都不能引入。Backward(Backward(向后剔除法向后剔除法)自变量由多到少一个一个自变量由多到少一个一个从回归方程中剔除,直到不能按检验水准剔除为止。从回归方程中剔除,直到不能按检验水准剔除为止。能克服向前引入法的
15、缺点,当两个变量一起时效果能克服向前引入法的缺点,当两个变量一起时效果好单独时效果不好,该法可将两个变量都引入方程。好单独时效果不好,该法可将两个变量都引入方程。Stepwise(Stepwise(逐步引入一剔除法逐步引入一剔除法)将向前引入法和向将向前引入法和向后剔除法结合起来,在向前引入的每一步之后都要后剔除法结合起来,在向前引入的每一步之后都要考虑从已引入方程的变量中剔除作用不显著者,直考虑从已引入方程的变量中剔除作用不显著者,直到没有一个自变量能引入方程和没有一个自变量能到没有一个自变量能引入方程和没有一个自变量能从方程中剔除为止。缺点同向前引入法,但选中的从方程中剔除为止。缺点同向前
16、引入法,但选中的变量比较精悍。变量比较精悍。v3 3、单击、单击StatisticsStatistics,打开,打开Linear RegressionLinear Regression:StatisticsStatistics对话框,可以选择输出的统计量。对话框,可以选择输出的统计量。vRegression CoefficientsRegression Coefficients栏,回归系数选项栏:栏,回归系数选项栏:Estimates(Estimates(系统默认系统默认):):输出回归系数的相关统计量。输出回归系数的相关统计量。Confidence intervals:Confidence
17、intervals:输出每一个非标准化回归系数输出每一个非标准化回归系数9595的置的置信区间。信区间。Covariance matrix:Covariance matrix:输出协方差矩阵。输出协方差矩阵。Model fitModel fit是默认项。能够输出复相关系数是默认项。能够输出复相关系数R R、R2R2及及R2R2修正值,修正值,(R2 R2 判定系数在判定一个线性回归直线的拟合优度的好坏时,判定系数在判定一个线性回归直线的拟合优度的好坏时,是一个重要的判定指标)是一个重要的判定指标)R squared change:R squared change:引入或剔除一个变量时,引入或剔
18、除一个变量时,R2R2的变化。的变化。DescriptivesDescriptives:基本统计描述基本统计描述。Part and Partial correlationsPart and Partial correlations:相关、偏相关系数。:相关、偏相关系数。CollinearityCollinearity diagnostics diagnostics:共线性诊断。:共线性诊断。Residuals Residuals 残差栏:残差栏:Durbin-WatsonDurbin-Watson:D.WD.W检验检验.CasewiseCasewise diagnostics:diagnost
19、ics:奇异值诊断奇异值诊断,有两个选项:有两个选项:Outliers outside()standard deviations:Outliers outside()standard deviations:奇异值判据,默奇异值判据,默认项标准差认项标准差3 3。All case All case 输出所有观测量的残差值。输出所有观测量的残差值。本例中选择本例中选择D.WD.W检验及奇异值诊断,选择标准差为检验及奇异值诊断,选择标准差为2 2,即置信度约,即置信度约为为95%95%。v4 4、如果需要观察图形,可单击、如果需要观察图形,可单击PlotsPlots按纽,打开按纽,打开Linear
20、RegressionLinear Regression:PlotsPlots对话框如图所示。在此对话框如图所示。在此对话框中可以选择所需要的图形。对话框中可以选择所需要的图形。v在左上角的源变量框中,选择在左上角的源变量框中,选择Dependent Dependent 进入进入X X(或(或Y Y)轴变)轴变量框,选择其它变量进入量框,选择其它变量进入Y Y(或(或X X)轴变量框,除因变量外,其)轴变量框,除因变量外,其客观存在变量依次是:客观存在变量依次是:ZPRED:ZPRED:标准化预测值,标准化预测值,ZRESID:ZRESID:标准化标准化残差,残差,DRESID:DRESID:剔
21、除残差,剔除残差,ADJPRED:ADJPRED:修正后预测值,修正后预测值,SRESIDSRESID学学生化残差,生化残差,SDRESID:SDRESID:学生化剔除残差。学生化剔除残差。vStandardized Residual PlotsStandardized Residual Plots栏,标准化残差图类型:栏,标准化残差图类型:vHistogram:Histogram:标准化残差直方图标准化残差直方图vNormal probability plot Normal probability plot 标准化残差序列的正态分布概率标准化残差序列的正态分布概率图图.vProduce al
22、l partial plots Produce all partial plots 依次绘制因变量和所有自变量依次绘制因变量和所有自变量的散布图的散布图v本例中选择因变量本例中选择因变量DependentDependent与标准化残差与标准化残差ZRESIDZRESID的残差图。的残差图。v5 5、单击、单击OptionsOptions按纽,打开按纽,打开Linear RegressionLinear Regression:OptionsOptions对话框,如图所示。可以从中选择模型拟合对话框,如图所示。可以从中选择模型拟合判断准则判断准则Stepping Method Criteria S
23、tepping Method Criteria 及缺失值的处及缺失值的处理方式。理方式。vStepping Method Criteria Stepping Method Criteria 栏:栏:vUse probability of F:Use probability of F:采用采用F F检验的概率为判别依据。检验的概率为判别依据。vUse F value:Use F value:采用采用F F值作为检验标准。值作为检验标准。vInclude constant in equation Include constant in equation 回归方程中包括常数项。回归方程中包括常数项。
24、vMissing Values Missing Values 缺失值处理方式。缺失值处理方式。v6 6、如果要保存预测值等数据,可单击、如果要保存预测值等数据,可单击SaveSave按纽打开按纽打开Linear Linear RegressionRegression:SaveSave对话框。选择需要保存的数据种类作为新对话框。选择需要保存的数据种类作为新变量存在数据编辑窗口。其中有预测值、残差,预测区间等。变量存在数据编辑窗口。其中有预测值、残差,预测区间等。本例中不做选择。本例中不做选择。v7 7、当所有选择完成后,单击、当所有选择完成后,单击OKOK,得到分析结果,得到分析结果 Model
25、 Summary(d)模型综合分析表模型综合分析表 ModelModelR RR SquareR SquareAdjusted Adjusted R SquareR SquareStd.Error ofthe EstimateChange Statistics变动分析变动分析Durbin-Watson R Square ChangeF Changedf1df2Sig.F Change 1 1.879(a.879(a).772.772.755.7552.44047.77244.085113.0002 2.994(b.994(b).988.988.986.986.58304.216215.7721
26、12.0003 3.997(c.997(c).994.994.993.993.41783.00612.365111.0052.066v表模型综合分析中有模型的复相关系数表模型综合分析中有模型的复相关系数R R,样本决定系数,样本决定系数R2R2,修正的可决系数,估计标准误,模型变化导致的可决系数及,修正的可决系数,估计标准误,模型变化导致的可决系数及F F值的变化,值的变化,D.WD.W检验值等。由上表中知模型检验值等。由上表中知模型3 3的修正的可决系的修正的可决系数为数为0.9930.993,其模型的拟合程度最好,其模型的拟合程度最好,DWDW值为值为2.0662.066,显然通过,显然通
27、过DWDW检验,说明残差项不存在一阶自相关。检验,说明残差项不存在一阶自相关。方差分析表方差分析表v方差分析表同时给出了方差分析表同时给出了3 3个模型的方差分析表。其中模型个模型的方差分析表。其中模型3 3的的F F值最大,说明模型值最大,说明模型3 3的回归效果最显著。的回归效果最显著。回归系数回归系数v回归系数表的输出结果回归系数表的输出结果ModelModel栏可以看出:栏可以看出:v模型模型1 1是先将卷烟销量作为自变量进入模型;是先将卷烟销量作为自变量进入模型;v模型模型2 2将卷烟销量与打火石销量两个自变量进入模型;将卷烟销量与打火石销量两个自变量进入模型;v模型模型3 3是将卷
28、烟、打火石和煤气户数三个自变量进入模型,是将卷烟、打火石和煤气户数三个自变量进入模型,自变量蚊香销量没有通过检验自动剔除,得回归模型为:自变量蚊香销量没有通过检验自动剔除,得回归模型为:v回归系数表的输出结果可以看出,回归系数都通回归系数表的输出结果可以看出,回归系数都通过检验,模型中自变量与因变量的偏相关系数都过检验,模型中自变量与因变量的偏相关系数都在在0.70.7以上,说明进入模型的自变量对因变量的影以上,说明进入模型的自变量对因变量的影响都比较显著。响都比较显著。v由最后两列的容忍度由最后两列的容忍度ToleranceTolerance和方差膨胀因子和方差膨胀因子VIFVIF的值来看,
29、自变量之间不存在强烈的共线性。的值来看,自变量之间不存在强烈的共线性。相关系数表相关系数表 火柴销量火柴销量(万件)(万件)煤气户数煤气户数(万户)(万户)卷烟销量卷烟销量(万箱)(万箱)蚊香销量蚊香销量(十万盒(十万盒)打火石销量打火石销量(百万粒)(百万粒)Pearson Correlation火柴销量(万件)火柴销量(万件)1.000.826.879.808-.490 煤气户数(万户)煤气户数(万户).8261.000.903.949-.023 卷烟销量(万箱)卷烟销量(万箱).879.9031.000.903-.029 蚊香销量(十万盒蚊香销量(十万盒).808.949.9031.00
30、0-.007 打火石销量(百万粒)打火石销量(百万粒)-.490-.023-.029-.0071.000Sig.(1-tailed)火柴销量(万件)火柴销量(万件).000.000.000.032 煤气户数(万户)煤气户数(万户).000.000.000.468 卷烟销量(万箱)卷烟销量(万箱).000.000.000.458 蚊香销量(十万盒蚊香销量(十万盒).000.000.000.490 打火石销量(百万粒)打火石销量(百万粒).032.468.458.490.N火柴销量(万件)火柴销量(万件)1515151515 煤气户数(万户)煤气户数(万户)1515151515 卷烟销量(万箱)1
31、515151515 蚊香销量(十万盒)1515151515 打火石销量(百万粒)1515151515v相关分析表中表示的相关系数是全部变量(自变量与相关分析表中表示的相关系数是全部变量(自变量与因变量)两两变量之间的简单相关系数和相关性检验。因变量)两两变量之间的简单相关系数和相关性检验。残差统计残差统计 v残差统计表表示了预测值、残差、标准化预测值残差统计表表示了预测值、残差、标准化预测值和标准化残差的特征值。其中包括预测值及残差项和标准化残差的特征值。其中包括预测值及残差项的最小值和最大值、均值、标准误和样本容量。的最小值和最大值、均值、标准误和样本容量。共线性诊断表共线性诊断表 共线性诊
32、断表中第二列是特征值,第三列是条件指共线性诊断表中第二列是特征值,第三列是条件指数,最后一列是方差比。最大的条件指数小于数,最后一列是方差比。最大的条件指数小于2020,说明自变量之间不存在比较强烈的共线性。说明自变量之间不存在比较强烈的共线性。练习11515例儿童的血液中血红蛋白例儿童的血液中血红蛋白(y,gy,g)与钙与钙(x1)(x1)镁镁(x2)(x2)铁铁(x3)(x3)锰锰(x4)(x4)及铜及铜(x5)(x5)的含量如下图所的含量如下图所示用,逐步回归方法筛选对血红蛋白有显著作示用,逐步回归方法筛选对血红蛋白有显著作用的微量元素用的微量元素(ugug)。练习练习2二、曲线估计二、
33、曲线估计 v上面介绍了线性回归模型的分析和检验方法。上面介绍了线性回归模型的分析和检验方法。v如果某对变量数据的散点图不是直线,而是某种曲如果某对变量数据的散点图不是直线,而是某种曲线的形式时,可以利用曲线估计的方法为数据寻求一线的形式时,可以利用曲线估计的方法为数据寻求一条合适的曲线,也可用变量代换的方法将曲线方程变条合适的曲线,也可用变量代换的方法将曲线方程变为直线方程,用线性回归模型进行分析和预测。为直线方程,用线性回归模型进行分析和预测。vSPSSSPSS提供了多种曲线方程。提供了多种曲线方程。v例:下表表示的是全国例:下表表示的是全国19901990年至年至20022002年人均消费
34、年人均消费支出与教育支出的统计数据,试以人均消费性支支出与教育支出的统计数据,试以人均消费性支出为解释变量,教育支出作为被解释变量,拟合出为解释变量,教育支出作为被解释变量,拟合用一条合适的函数曲线。用一条合适的函数曲线。人均消费支出与教育支出数据表人均消费支出与教育支出数据表 年份年份人均消费性支出(元)人均消费性支出(元)教育支出(元)教育支出(元)199019901627.641627.6438.2438.24199119911854.221854.2247.9147.91199219922203.62203.657.5657.56199319933138.563138.5671.007
35、1.00199419944442.094442.09153.98153.98199519955565.685565.68194.62194.62199619966544.736544.73307.95307.95199719977188.717188.71419.19419.19199819987911.947911.94542.78542.78199919997493.317493.31556.93556.93200020007997.377997.37656.28656.28200120019463.079463.071091.851091.85200220029396.459396.45
36、1062.131062.13v解:首先根据上表建立数据,作出人均消费支出解:首先根据上表建立数据,作出人均消费支出与教育支出的散点图,如下:由上面图形可以看出,与教育支出的散点图,如下:由上面图形可以看出,两个变量的散点图为增长的曲线形式,故选择合适两个变量的散点图为增长的曲线形式,故选择合适的函数进行曲线估计。的函数进行曲线估计。1 1、单击、单击Analyze Analyze Regression Regression Curve Curve EstimationEstimation打开打开Curve EstimationCurve Estimation对话框。对话框。2 2、选择估计曲线
37、:、选择估计曲线:SPSSSPSS有多条曲线形式供选择。有多条曲线形式供选择。3 3、单击、单击SaveSave按纽,打开按纽,打开SaveSave对话框如图所示。对话框如图所示。选择需要保存到数据表中的项目。在选择需要保存到数据表中的项目。在Save VariablesSave Variables栏中,复选项依次是:栏中,复选项依次是:Predicted ValuesPredicted Values预测值、预测值、ResidualsResiduals残差、残差、Prediction intervalsPrediction intervals预测区间,预测区间,可以在下方框中选择置信度,默认值
38、为可以在下方框中选择置信度,默认值为95%95%。4 4、所有选择完成后,单击、所有选择完成后,单击OKOK,得到输出结果如表,得到输出结果如表 曲线估计输出表曲线估计输出表 决定系数决定系数自由自由度度F F值值P P值值回归系数回归系数DependentDependentMthMthRsqRsqd.fd.f.F FSigfSigfb0b0b1b1b2b2Y YQUAQUA.987.9871010382.64382.64.000.000252.698252.698-.1475-.14752.5E-052.5E-05Y YCOMCOM.995.99511112086.352086.35.000
39、.00020.955020.95501.00041.0004Y YPOWPOW.954.9541111229.58229.58.000.0003.6E-053.6E-051.84601.8460Independent:XIndependent:X曲线图曲线图 从表中可以看出,可决系数接近从表中可以看出,可决系数接近1 1的模型是的模型是 ComCom复复合函数;也可通过图形验证这三个模型对观察值的合函数;也可通过图形验证这三个模型对观察值的拟合程度。拟合程度。对以上三个模型进一步分析。在主对话框下方选择对以上三个模型进一步分析。在主对话框下方选择输出方差分析表输出方差分析表Display AM
40、OVA table,Display AMOVA table,可得到方可得到方差分析表详细结果。差分析表详细结果。通过比较各种估计模型的样本决定系数,标准通过比较各种估计模型的样本决定系数,标准误,误,F F值,拟合程度最好的复合函数曲线,并且值,拟合程度最好的复合函数曲线,并且其模型的回归系数的检验也通过。其模型的回归系数的检验也通过。故可以选择复合函数曲线作为拟合曲线,其回故可以选择复合函数曲线作为拟合曲线,其回归方程为:归方程为:三、三、Logistic回归分析回归分析使用多元线性回归来分析多个自变量与一个因使用多元线性回归来分析多个自变量与一个因变量的关系,因变量要求正态分布的连续随机变
41、量的关系,因变量要求正态分布的连续随机变量。变量。所谓所谓Logistic Logistic 回归是指因变量为二级计分或二回归是指因变量为二级计分或二类评定的回归分析。类评定的回归分析。某医师研究男性胃癌患者发生术后院内感染的某医师研究男性胃癌患者发生术后院内感染的影响因素,资料如下表,请通过影响因素,资料如下表,请通过LogisticLogistic回归回归统计方法对主要影响因素进行分析。统计方法对主要影响因素进行分析。术后感染术后感染Y Y年龄年龄X1X1手术创伤度手术创伤度X2X2营养状态营养状态X3X3术前预防性抗菌术前预防性抗菌X4X4白细胞数白细胞数(10109 9/L/L)X5X
42、5癌肿病理分度癌肿病理分度(TNMTNM得分和)得分和)X6X6有有有有无无无无无无有有无无有有有有无无无无无无无无无无无无6969727257574141323265655858545455555959646436364242484850504 45 53 31 11 13 33 34 42 21 12 21 13 34 41 12 23 32 21 11 13 32 22 22 21 12 21 11 12 22 2无无无无无无有有有有有有有有无无有有有有无无有有有有有有有有5.65.64.44.49.79.711.211.210.410.47.07.03.13.16.66.67.97.9
43、6.06.09.19.18.48.45.35.34.64.612.812.89 96 64 45 55 55 56 66 67 74 46 68 86 65 54 4激活数据管理窗口,定义变量名:术后感染为激活数据管理窗口,定义变量名:术后感染为Y Y(字符变量,(字符变量,有输入有输入Y Y、无输入、无输入N N),年龄为),年龄为X1X1,手术创伤程度为,手术创伤程度为X2X2,营,营养状态为养状态为X3X3,术前预防性抗菌为,术前预防性抗菌为X4X4(字符变量,有输入(字符变量,有输入Y Y、无输入无输入N N),白细胞数为),白细胞数为X5X5,癌肿病理分度为,癌肿病理分度为X6X6。
44、激活激活AnalyzeAnalyze菜单选菜单选RegressionRegression中的中的Logistic.Logistic.项,弹出项,弹出Logistic RegressionLogistic Regression对话框。对话框。选选y y,点击,点击 钮使之进入钮使之进入DependentDependent框框;选选x1x1、x2x2、x3x3、x4x4、x5x5和和x6x6,点击,点击 钮使之进入钮使之进入CovariatesCovariates框;框;点击点击MethodMethod处的下拉按钮,系统提供处的下拉按钮,系统提供7 7种方法:种方法:1 1、EnterEnter:
45、所有自变量强制进入回归方程;:所有自变量强制进入回归方程;2 2、Forward:ConditionalForward:Conditional:以假定参数为基础作似然比概:以假定参数为基础作似然比概率检验,向前逐步选择自变量;率检验,向前逐步选择自变量;3 3、Forward:LRForward:LR:以最大局部似然为基础作似然比概率检验,:以最大局部似然为基础作似然比概率检验,向前逐步选择自变量;向前逐步选择自变量;4 4、Forward:WaldForward:Wald:作:作WaldWald概率统计法,向前逐步选择自变概率统计法,向前逐步选择自变量;量;5 5、Backward:Cond
46、itionalBackward:Conditional:以假定参数为基础作似然比概:以假定参数为基础作似然比概率检验,向后逐步选择自变量;率检验,向后逐步选择自变量;6 6、Backward:LRBackward:LR:以最大局部似然为基础作似然比概率检:以最大局部似然为基础作似然比概率检验,向后逐步选择自变量;验,向后逐步选择自变量;7 7、Backward:WaldBackward:Wald:作:作WaldWald概率统计法,向后逐步选择自概率统计法,向后逐步选择自变量。变量。本例选用本例选用Forward:ConditionalForward:Conditional法,以便选择有主要作用
47、的法,以便选择有主要作用的影响因素影响因素点击点击OptionsOptions钮,弹出钮,弹出Logistic Regression:Options Logistic Regression:Options 对话对话框,在框,在DisplayDisplay框中选取框中选取At last stepAt last step项,要求只显示最终项,要求只显示最终计算结果,点击计算结果,点击ContinueContinue钮,返回钮,返回Logistic RegressionLogistic Regression对对话框。话框。再点击再点击OKOK钮即可。钮即可。结果解释结果解释Dependent Var
48、iable Encoding:Original InternalValue Valuey 0n 1 Parameter Value Freq Coding (1)X4 n 5 1.000 y 10 -1.000系统先对字符变量进行重新赋值,对于应变量系统先对字符变量进行重新赋值,对于应变量Y Y,回答是(回答是(Y Y)的赋值为)的赋值为0 0,回答否(,回答否(X X)的赋值为)的赋值为1 1;对于应变量对于应变量X4X4,回答是(,回答是(Y Y)的赋值为)的赋值为-1-1,回答否,回答否(X X)的赋值为)的赋值为1 1。结果表明,第一步自变量结果表明,第一步自变量X3X3入选,方程分类
49、能力达入选,方程分类能力达80.00%80.00%;第二步自变量第二步自变量X6X6入选,方程分类能力达入选,方程分类能力达93.33%93.33%(参见结果中(参见结果中的分类分析表);方程有效性经的分类分析表);方程有效性经22检验,检验,2=15.2762=15.276,P=0.0005P=0.0005。LogisticLogistic回归的分类概率方程为:回归的分类概率方程为:e(123.4053-30.5171X3-10.2797X6)e(123.4053-30.5171X3-10.2797X6)P=P=1+e(123.4053-30.5171X3-10.2797X6)1+e(123.4053-30.5171X3-10.2797X6)根据该方程,若一胃癌患者营养状态评分(根据该方程,若一胃癌患者营养状态评分(X3X3)为)为3 3,癌肿病理分度(,癌肿病理分度(X6X6)为为9 9,则其,则其P=4.5P=4.510-27010-270,这意味着术后将发生院内感染;另一胃癌患者,这意味着术后将发生院内感染;另一胃癌患者营养状态评分(营养状态评分(X3X3)为)为1 1,癌肿病理分度(,癌肿病理分度(X6X6)为)为4 4,则其,则其P=0.981051P=0.981051,这,这意味着术后将不会发生院内感染。意味着术后将不会发生院内感染。
限制150内