第8章多元分析.pdf
第8章 多元统计分析1第 8 章多元统计分析第 8 章多元统计分析8.1 多元均数向量的比较28.1.1 配对设计均向量比较28.1.2 成组设计两样本均向量比较48.1.3成组设计多个样本均向量比较68.2 回归分析98.2.1 多元线性回归98.2.2 多元逐步回归118.2.3 logistic 回归168.2.3.1 条件 logistic 回归168.2.3.2 非条件 logistic 回归198.2.4 Poisson 回归 218.2.5 指数回归228.2.6 Cox 回归 258.2.7 主成分回归278.3相关分析298.3.1 线性相关298.3.2 典型相关318.4 判别分析358.4.1 多类判别(Fisher 法)358.4.2 逐步判别(Bayes 法)418.5 聚类分析468.5.1 样品系统聚类478.5.2 指标系统聚类498.5.3 样品逐步聚类518.5.4 有序样品聚类548.6 主成分分析 588.7 因子分析 61PEMS 3.1 说明书2第第 8 章多元统计分析章多元统计分析8.1多元均数向量的比较8.1多元均数向量的比较对多变量资料的分析,不能分别对单个变量进行一元分析。因为这种处理方法有以下缺点:(1)当变量较多时,重复进行一元分析会大大增加假阳性错误;(2)一元分析结果不一致时,难以得到一个综合结论;(3)忽略了变量间的相互关系。克服上述缺点的做法是进行多元分析。多元分析的精髓之一是对 m 个相关变量同时进行分析。对一元分析,配对设计和两均数的比较用t检验,对多元分析来说,配对设计和两组均向量的比较用 HotellingT2检验,简称多元T检验;对多组设计的资料,单变量分析用方差分析(ANOVA)方法,而对多组均向量的比较则用多元方差分析。8.1.1配对设计均向量比较配对设计均向量比较主要功能主要功能1变量差值的均数和标准差;2原始数据的协方差矩阵;3HotellingT2值、HotellingF值及P值。分析示例分析示例例用胸腺素治疗 15 例病毒性心肌炎细胞免疫功能低下症,结果如下表。试问,胸腺素治疗前后免疫球蛋白是否有改变?(选自医用多元统计分析方法,P9,例2.1)IgGIgAIgM疗前疗后差值疗前疗后差值疗前疗后差值18101654-156246196-50292243-4917441568-176213208-5286272-1418061743-63226214-12297276-2117121584-128238168-70265274916421649722724215307289-1816851543-142260198-622462651917281624-10413821274312288-2416951500-19519620711266262-417601340-420233179-542432591616901454-236256196-60334296-3816671453-214297209-88285263-2217031564-13921222311296274-2217151644-7122823792492601116991543-156236205-31266262-417331684-49202197-5308288-201、数据输入:先建立数据文件,数据录入格式如图所示。该实例数据输入时,第8章 多元统计分析3定义 IgG0 为疗前的 IgG,IgG1 为疗后的 IgG;同理,定义 IgA0、IgM0 分别为疗前的 IgA、IgM,IgA1、IgM1 分别为疗后的 IgA、IgM。2、操作步骤:在多元统计分析菜单中,选择多元均数向量的比较中的配对设计均向量比较后,屏幕出现其对话框,如图所示。在此对话框中,将变量依次成对,即将 IgG,IgA,IgM 按各自治疗前后顺序(IgG0、IgG1、IgA0、IgA1、IgM0、IgM1)放入分析变量框中,点击确定,便可得到分析结果。3、分析结果配对设计多元T检验数据文件名:D:PEMS_Datadyfx1.xls分组变量名:分析样本个数=3样本含量=15各对差值的均数和标准差配对变量均 数标准差PEMS 3.1 说明书4IgG1 IgG0-149.466799.5008IgA1 IgA0-21.133343.0811IgM1 IgM0-12.066719.6704协方差矩阵9900.40952047.719-391.8192047.7191855.981-108.4381-391.819-108.4381386.9238Hotelling T2=47.6559HotellingF=13.616P=0.0004【本分析结果完毕】4、结果解释T247.6559,F=13.616,P=0.00040.05,拒绝原假设,可以认为胸腺素治疗前后免疫球蛋白有改变。8.1.2成组设计两样本均向量比较成组设计两样本均向量比较主要功主要功能能1原始数据的均数和标准差;2原始数据的协方差矩阵;3HotellingT2值、HotellingF值及P值。分析示例分析示例例两组贫血患者其血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2)如下表。问两组患者的贫血程度是否有差异。(选自医用多元统计分析方法,P11,例 2.2)A 组B 组X1X2X1X23.92104.82704.21904.71803.72405.42304.01704.52454.42204.62705.22304.42202.71605.92902.42605.52203.62404.32905.51805.13102.92003.33001、数据输入:先建立数据文件,数据录入格式如图所示。该实例数据输入时,定义 G 为分组变量,其值为 1、2 分别代表 A、B 两组,X1为血红蛋白浓度,X2为红细胞计数。第8章 多元统计分析52、操作步骤:在多元统计分析菜单中,选择多元均数向量的比较中的成组设计两样本均向量比较 后,屏幕出现其对话框,如图所示。在此对话框中,将变量 G(取值为 1,2)放入分组变量框中,将变量 X1及 X2放入分析变量框中,点击确定,便可得到分析结果。3、分析结果成组设计多元T检验数据文件名:D:PEMS_Datadyfx2.XLS分组变量名:G分析变量个数=2组数=2均数和标准差组 别变量均数标准差第1组X13.81670.9389X2216.666740.3019第2组X14.920.5329X2252.540.3629合 计X14.31820.9485X2232.954543.388第1组的协方差矩阵0.8815-8.5758-8.57581624.2424PEMS 3.1 说明书6第2组的协方差矩阵0.2842.52.51629.1667合并协方差矩阵0.6126-3.5917-3.59171626.4583Hotelling T2=16.9184HotellingF=8.0362P=0.0030【本分析结果完毕】4、结果解释T216.9184,F=8.0362,P=0.00300.05,拒绝原假设,可以认为两组贫血患者的血红蛋白浓度及红细胞计数是有差别的,B组高于A组。8.1.3成组设计多个样本均向量比较成组设计多个样本均向量比较主要功主要功能能1原始数据的均数和标准差;2组间离差阵、组内离差阵以及总离差阵;3Wilks lamda值、Rao sF值及P值4多个样本均向量的两两比较。分析示例分析示例例三组贫血患者其血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2)如下表。问三组患者的贫血程度是否有差异。(选自医用多元统计分析方法,P12,例 2.3)A 组B 组C 组X1X2X1X2X1X23.92104.82704.42504.21904.71803.73053.72405.42302.92404.01704.52454.53304.42204.62703.32305.22304.42204.51952.71605.92903.82752.42605.52203.73103.62404.32905.51805.13102.92003.3300第8章 多元统计分析71、数据输入:先建立数据文件,数据录入格式如图所示。该实例数据输入时,定义 g 为分组变量,其值为 1、2、3 分别代表 A、B、C 组,X1为血红蛋白浓度,X2为红细胞计数。2、操作步骤:在多元统计分析菜单中,选择多元均数向量的比较中的成组设计多个样本均向量比较 后,屏幕出现成组设计多个样本均向量比较对话框。在此对话框中,将变量 g(取值分别为 1,2,G 组)放入分组变量框中,将变量 X1及 X2放入分析变量框中,点击确定,便可得到分析结果。3、分析结果成组设计多元方差分析数据文件名:D:Pems_Datadyfx3.xls分组变量名:g分析变量个数=2组数=3均数和标准差组 别变量均数标准差第1组x13.81670.9389x2216.666740.3019第2组x14.920.5329x2252.540.3629第3组x13.850.5855x2266.87546.1316PEMS 3.1 说明书8合 计x14.19330.8824x224245.931组间离差阵 SSB7.926122.4833122.483313753.9583组内离差阵 SSW14.6527-53.5833-53.583347426.0417总离差阵 SST22.578768.968.961180多元方差分析结果WilksLamda=0.5027RaosF=5.335P=0.0011两两比较结果对比组Mahalanobis DFP第1组 与 第2组3.15188.27750.0018第1组 与 第3组1.45023.35150.0520第2组 与 第3组2.17224.64840.0197【结果完毕】4、结果解释方差分析:Wilks Lamda=0.5027,Raos的F=5.335,P=0.00110.05,不拒绝原假设,尚不能认为1、3两组贫血患者的血红蛋白浓度及红细胞计数是有差别的;而1组与2组、2组与3组比较的P均小于0.05,故可以认为1组与2组,2组与3组贫血患者的血红蛋白浓度及红细胞计数是有差别的。第8章 多元统计分析98.2回归分析8.2回归分析8.2.1多元线性回归多元线性回归在客观世界中,事物之间的关系往往比较复杂。一个因变量与一个自变量发生关系的简单线性回归模型的情形是比较少见的。在多数情况下,都是一个因素受到其他许多因素的制约和影响,如血压值的大小除了与年龄有关外,还受到性别、劳动强度、饮食习惯、吸烟状况、家族史等因素的影响。因此,实际工作需要我们把简单线性回归模型加以扩展,研究一个因变量与多个自变量之间的线性关系,找出它们之间关系的函数表达式,从而达到预报作用,这就是多元线性回归。设有 m 个自变量 X1,X2,Xm及一个因变量 Y,则其 m 元线性回归方程的一般形式为:mmXbXbXbbY22110,其中 bi为偏回归系数,它的意义是指当其他各自变量的值均被固定时,Xi改变 1 个单位 Y 所改变的量。主要功能主要功能1复相关系数、校正复相关系数和剩余标准差;2原始数据的均数和标准差;3偏回归系数、标准偏回归系数及回归系数的标准误;4回归方程的假设检验及回归系数的假设检验。分析示例分析示例例某地 29 名 13 岁男童身高 x1(cm),体重 x2(kg),肺活量 y(L)的实测数据如下表,试建立肺活量与身高、体重的回归关系。(选自医用多元统计分析方法,P24,例 3.1)编号身高(cm)x1体重(kg)x2肺活量(L)y编号 身高(cm)x1体重(kg)x2肺活量(L)y1135.132.01.7516153.032.01.752139.930.42.0017147.640.52.003163.646.22.7518157.543.32.254146.533.52.5019155.144.72.755156.237.12.7520160.537.52.006156.435.52.0021143.031.51.757167.841.52.7522149.433.92.258149.731.01.5023160.840.42.759145.033.02.5024159.038.52.5010148.537.22.2525158.237.52.0011165.549.53.0026150.036.01.7512135.027.61.2527144.534.72.2513153.341.02.7528154.639.52.5014152.032.01.7529156.532.01.7515160.547.22.25PEMS 3.1 说明书101、数据输入:先建立数据文件,数据录入格式如图所示。该实例数据输入时,定义 X1 为身高,X2 为体重,Y 为肺活量。2、操作步骤:在多元统计分析菜单中,选择回归分析中的多元线性回归后,屏幕出现多元线性回归对话框。在此对话框中,将自变量 X1、X2 放入自变量框中,将因变量 Y 放入因变量框中,点击确定,便可得到分析结果。3、分析结果多 元 线 性 回 归数据文件名:D:PEMS_Datadyfx16.xls因变量名:Y分析变量总个数=3自 变 量 个 数=2样 本 含 量=29复 相 关 系 数=0.7389校正复相关系数=0.7149剩 余 标 准 差=0.3137回归方程的线性假设检验:F=15.6319P=0.0000均数和标准差变量均数标准差X1152.57598.3622X237.12765.5328Y2.20690.4486方差分析表第8章 多元统计分析11变异来源SS自由度vMSFP总 变 异5.633628回归3.075721.537915.63190.0000误差2.5579260.0984回归系数的检验变 量偏回归系数标准偏回回归系数tP归 系 数的标准误常 数-0.5657X10.00500.09350.01060.47440.6391X20.05410.66680.01603.38220.0022【本分析结果完毕】4、结果解释回归方程为Y=0.56570.005X1+0.0541X2,从方差分析表可知,F15.6319,P0.00000.05,故回归方程是有意义的。但从偏回归系数的t检验知身高的回归系数b1无统计学意义,而体重的回归系数b2有统计学意义,它表明身高不变时,体重每增加1千克,肺活量就增加0.0541升。8.2.2多元逐步回归多元逐步回归逐步回归分析属于多元线性回归分析的范畴,它是为了建立“最佳”多元线性回归方程而对一般多元线性回归分析方法进行的一种改良。多元线性回归分析是把所有自变量全部放进回归方程中去,而不考虑每个因子在回归方程中所起的作用,可能将无统计学意义的自变量也纳入回归方程,反而降低了模型估计的精度。为了克服这一缺点而建立起一个对自变量的双向筛选程序:把具有明显回归效果的自变量选入方程中,对作用不明显的自变量不选入或剔除出回归方程。这种筛选程序是一步一步进行的,所以称为逐步回归分析。它主要有逐步向前法和逐步向后法两种。逐步向前法:将自变量逐个地引入方程,引入的条件是该自变量的偏回归平方和在未选入的自变量中是最大的,并经F检验是有统计学意义的。另一方面,每引入一个新变量,要对先前已选入方程的变量逐个进行F检验,将偏回归平方和最小且无统计学意义的变量剔除出方程,直至方程外的变量不能再引入,方程中的自变量不能再剔除为止。逐步向后法:首先建立包括全部自变量的回归方程,然后逐步地剔除变量,先对每一自变量作F检验,剔除无统计学意义的变量中偏回归平方和最小的自变量,PEMS 3.1 说明书12重新建立方程。接着对方程外的自变量逐个进行F检验,将偏回归平方和最大且有统计学意义的变量引入方程。重复上述过程,直至方程中的所有自变量都有统计学意义而方程外的自变量都没有统计学意义为止。主要功能主要功能1变量筛选的情况,包括进入或被剔出方程的变量,剔选时的值,每步方程中的变量数、复相关系数、校正复相关系数和剩余标准差等;2最后建立的方程的偏回归系数、标准偏回归系数及回归系数的标准误;3最后建立的方程的复相关系数、校正复相关系数和剩余标准差;4方程中回归系数的假设检验及回归方程的假设检验。不同的界值所得方程可能不同,一般来说界值大,进入方程的变量就少一些;界值小,进入方程的变量就多一些。但界值的大小与选出的方程是否最优没有必然的联系。用户可多选几个界值,多建立几个方程,比较各方程的校正复相关系数或剩余标准差,以便得到局部最优方程。分析示例分析示例例下表资料(选自史秉璋、杨琦医用多元分析P102-103),试进行逐步回归分析。X1X2X3X4YX1X2X3X4Y137261911.5166191410.21511403419.82410322619.8218291713.72211393825.31912153321.610717209.72711132722.3188342214.83210211519.12911282120.7178181611.71811163219.62610352319.41610153420.3146141810.6187231411.12813213425.52311292920.7199132918.72513414028.91210193819.3329121518.3238251715.63611371821.52811333224.7319251417.7219181915.32913143828.33514243429.81810113521.61、数据输入:先建立数据文件,数据录入格式如图所示。2、操作步骤:在多元统计分析菜单中,选择回归分析中的多元逐步回归后,屏幕出现逐步回归对话框。在此对话框中,选入变量的方法选择前进法(也可选后退法),将自变量 X1、X2、X3、X4 放入自变量框中,将因变量 Y 放入因变量框中,输入剔选变量的 F 值选 2,点击确定,便可得到分析结果。第8章 多元统计分析133、分析结果逐 步 回 归(前 进 法)数据文件名:D:PEMS_Datadyfx4.xls因变量名:Y分析变量总个数=5自 变 量 个 数=4样 本 含 量=32选入变量的值=2剔除变量的值=2.第1步选 入 变 量:X2F=323.4381复相关系数=0.9566校正复相关系数=0.9551剩余标准差=1.6267方 差 分 析变异来源SS自由度MSFP回归855.8791855.879323.43810.0000剩余79.3857302.6462总 变 异935.264731方 程 中 的 变 量变量回归系数标准回归系数标准误tP常数项-5.9318X22.5380.95660.141117.98440.0000未进入方程的变量变量偏相关系数PEMS 3.1 说明书14X10.2582X30.1022X40.2874第2步选 入 变 量:X4F=2.6111复相关系数=0.9603校正复相关系数=0.9575剩余标准差=1.5847方 差 分 析变异来源SS自由度MSFP回归862.43622431.2181171.70920.0000剩余72.8285292.5113总 变 异935.264731方 程 中 的 变 量变量回归系数标准回归系数标准误tP常数项-5.5306X22.29250.86410.204911.18850.0000X40.07880.12480.04881.61590.1169未进入方程的变量变量偏相关系数X10.9594X30.1317第3步选 入 变 量:X1F=324.0157复相关系数=0.9969校正复相关系数=0.9966剩余标准差=0.4549方 差 分 析变异来源SS自由度MSFP回归929.47183309.82391497.53010.0000剩余5.7929280.2069总 变 异935.264731方 程 中 的 变 量变量回归系数标准回归系数标准误tP第8章 多元统计分析15常数项-5.3178X10.47420.5980.026318.00040.0000X20.18070.06810.13121.37680.1795X40.46810.7410.025818.16930.0000未进入方程的变量变量偏相关系数X30.1824第4步剔 除 变 量:X2F=1.8957复相关系数=0.9967校正复相关系数=0.9965剩余标准差=0.4618方 差 分 析变异来源SS自由度MSFP回归929.07962464.53982178.07440.0000剩余6.1851290.2133总 变 异935.264731方 程 中 的 变 量变量回归系数标准回归系数标准误tP常数项-5.1104X10.50660.63890.012042.26650.0000X40.50110.79330.009552.48140.0000未进入方程的变量变量偏相关系数X20.2518X30.1806【本分析结果完毕】4、结果解释逐步回归进行了四步停止了,也就是说,此时方程中没有变量可剔除,而方程外也没有变量可引入了。最后在方程中的变量只有X1和X4,而X2和X3都未进入方程。因此回归方程为:Y5.11040.5066X1+0.5011X4,从方差分析表可知,F2178.0744,P0.00000.05),而不良饮食习惯(X1)、喜吃卤食和盐渍食物(X2)与胃癌发生有较密切的关系。X1和X2的回归系数都为正值,OR大于1,并且都有统计学意义,说明不良饮食习惯增加胃癌发病的机会,而多吃卤食和盐渍食物也会增加胃癌发病的机会,而且卤食和盐渍食物吃得越多,胃癌发病的机会就越大。由于X3不能引入模型,因此精神状况的好与差与胃癌发病无显著相关。8.2.3.2非条件非条件 logistic 回归回归非条件 logistic 实质上是 Cox 提出的 logistic 判别模型的特例(二级判别),只是由于应用广泛,才专门列出。它既适用于队列研究资料,也适用于病例对照研究资料。主要功能主要功能1每一步迭代的对数似然函数值;2变量的回归系数,及其标准误、z 检验和回归系数可信区间;3变量的 OR 值以及可信区间。注:本软件规定注:本软件规定,以 1 表示病例,0 表示对照。分析示例,以 1 表示病例,0 表示对照。分析示例例为研究内源性儿茶酚胺水平(CAT)与冠心病(CHD)发病的关系,分别随访 CAT 高和低两组人群 7 年期间冠心病发病数。在分析时需考虑年龄(AGE55和55)和心电图异常(ECG 有=1 和无)的混杂作用,按这两因素分层整理成下表。设发病 Y=1,未发病 Y=0,试建立 Y 与 CAT,AGE 和 ECG 的 logistic 回归模型。(选自医学统计学与电脑实验,P488,例 28.2)CAT=1(高)CAT=0(低)分层因素发病未发病发病未发病AGE55,ECG=0AGE0。分析示例分析示例例某临床试验比较 A,B 两治疗方案对某病的治疗效果,A 组(group=0)12 人,B 组(group=1)13 人。病人分组后检验其肾功能(kidney),功能正常者记 0,不正常者记为 1;治疗后生存时间为 stime(天);资料见下表。问不同治疗方案及肾功能对病人的生存时间是否有影响?(选自医用多元统计分析方法,P156,例 8.8)治疗生存观察治疗生存观察方案时间结果方案时间结果编号NO.Groupstimecensor肾功能kidney编号NO.groupstimecensor肾功能kidney1081113118010208520014163210305211151224000402201016119510506311171761060810181701070197600191131180129600201231190146000211129610100631122121010110132800231700101203650024118112511990001、数据输入:先建立数据文件,数据录入格式如图所示。该实例数据输入时,定义 group 为组别,group0 表示 A 组,group1 表示 B 组;kidney 为肾功能是否正常,kidney0 表示正常,kidney1 表示不正常;stime 为治疗后生存时间;censor 为观察结果是否终检,censor0 表示终检,censor1 表示死亡。PEMS 3.1 说明书242、操作步骤:在多元统计分析菜单中,选择回归分析中的指数回归,屏幕出现其对话框,如图所示。在此对话框中,将变量 group、kidney 放入自变量框中,将 stime 放入时间变量框中,将 censor 放入结果变量框中,点击确定,便可得到分析结果。3、分析结果指数回归数据文件名:D:PEMS_Datadyfx13-1.xls自 变 量 个 数=2样 本 含 量=25截 尾 例 数=8截 尾 变 量 名:censor生存时间变量名:stimeIteration1:log likelihood=-15259.0599Iteration2:log likelihood=-5589.2014Iteration3:log likelihood=-2042.1815Iteration4:log likelihood=-746.994Iteration5:log likelihood=-278.9391Iteration6:log likelihood=-113.4572Iteration7:log likelihood=-57.8986Iteration8:log likelihood=-41.4609Iteration9:log likelihood=-37.8421Iteration10:log likelihood=-37.4725Iteration11:log likelihood=-37.4663Iteration12:log likelihood=-37.4663Iteration13:log likelihood=-37.4663指数模型回归系数的z检验95%可信区间变 量回归系数标准误zP下限上限第8章 多元统计分析25常 数8.06210.513815.69120.00007.0559.0691group-1.16020.5305-2.18720.0287-2.1999-0.1205kidney-4.12660.5151-8.01150.0000-5.1362-3.1171风险比及其可信区间风险比的95%可信区间变 量风险比下限上限group3.19061.12819.0244kidney61.968922.5798170.0695【本分析结果完毕】4、结果解释治疗方案(group)与肾功能(kidney)均对生存时间有影响。B 组患者的生存率小于 A 组,而肾功能不正常组患者的生存率小于肾功能正常组。从风险比的角度来看,B 组患者死亡的风险是 A 组的 3.19 倍,而肾功能不正常组患者的死亡风险是肾功能正常组的 61.97 倍。8.2.6Cox 回归回归Cox 回归是生存分析中最重要的方法之一,其优点是适用条件很宽和便于作多因素分析,它主要用于肿瘤和其他慢性病的预后分析,也可用于队列研究的病因探索。Cox 比例风险模型的一般形式是:(t)=0(t)exp(1x1+2x2+pxp)它表示时刻 t 暴露于危险因素状态(x1,x2,xp)的风险函数,其中0(t)为基线风险函数,表示危险因素状态处于(0,0,0)的风险函数。一般0(t)不能由样本估计出,故 Cox 模型又称为半参数的模型。比值),|(),|(2121ppxxxtxxxt表示时间为 t 时个体暴露于危险因素状态(x1,x2,xp)与暴露于危险因素状态(x1,x2,xp)下发病的风险比,又称相对危险度。主要功能主要功能1每一步迭代的对数似然值;2变量的回归系数,及其标准误、z 检验和可信区间;3变量的风险比及其可信区间。注:结果变量用注:结果变量用 1 表示死亡(或出现结果),以表示死亡(或出现结果),以 0 表示终检。分析示例表示终检。分析示例例某临床试验比较 A,B 两治疗方案对某病的治疗效果,A 组(group=0)12 人,B 组(group=1)13 人。病人分组后检验其肾功能(kidney),功能正常者记 0,不正常者PEMS 3.1 说明书26记为 1;治疗后生存时间为 stime(天);资料如前“指数回归”相同。问不同治疗方案及肾功能对病人的生存时间是否有影响?(选自医用多元统计分析方法,P156,例 8.8)1、数据输入:先建立数据文件,数据录入格式如图所示。该实例数据输入时,定义 group 为组别,group0 表示 A 组,group1 表示 B 组;kidney 为肾功能是否正常,kidney0 表示正常,kidney1 表示不正常;stime 为治疗后生存时间;censor 为观察结果是否终检,censor0 表示终检,censor1 表示死亡。2、操作步骤:在多元统计分析菜单中,选择回归分析中的Cox 回归,屏幕出现Cox 比例风险模型对话框。在此对话框中,将变量 group、kidney 放入自变量框中,将 stime 放入时间变量框中,将 censor 放入结果变量框中,点击确定,便可得到分析结果。3、分析结果Cox 比例风险模型回归数据文件名:D:PEMS_Datadyfx13-1.xls自 变 量 个 数=2样 本 含 量=25截 尾 例 数=8截 尾 变 量 名:censor生存时间变量名:stimeIteration1:log likelihood=-47.0419Iteration2:log likelihood=-36.0177Iteration3:log likelihood=-35.7267Iteration4:log likelihood=-35.7076Iteration5:log likelihood=-35.7075Cox 比例风险模型回归系数的z检验第8章 多元统计分析2795%可信区间变 量回归系数标准误zP下限上限group1.24310.59932.07420.03810.06842.4177kidney4.10551.16453.52540.00041.8236.3879风险比及其可信区间风险比的95%可信区间变 量风险比下限上限group3.46631.070811.2205kidney60.67036.1902594.6302【本分析结果完毕】4、结果解释:Cox比例风险函数为:(t)=0(t)exp(1.2431group+4.1055kidney),且回归系数均有统计学意义。group的风险比为3.4663,它表示接受B治疗方案的患者在某时刻死亡的危险度是接受A治疗方案的3.4663倍;kidney的风险比为60.6703,它表示肾功能不正常者在某时刻死亡的危险度是肾功能正常者的60.6703倍。8.2.7主成分回归主成分回归在多元线性回归中,当自变量间高度相关时,某些回归参数的估计值极不稳定,甚至出现有悖常理、难以解释的情形。这时,可先采用主成分分析产生若干主成分,它们必定会将相关性较强的变量综合在同一主成分中,而不同的主成分又是相互独立的。只要多保留几个主成分,原变量的信息不致过多损失。然后,以这些主成分为自变量进行多元线性回归就不会再出现共线性的困扰了,这就是主成分回归。当自变量间的相关均较小时,主成分回归是没有意义的。主要功能主要功能1特征根及其贡献率,累计贡献率;2复相关系数和校正复相关系数;3变量的回归系数,及其均数、标准差。分析示例分析示例例测得 22 例胎儿及外形指标如下表,试建立由外形指标推测胎儿周龄的回归方程。(选自医用多元统计分析方法,P60,例 4.5)身长(cm)头围(cm)体重(g)胎儿受精龄(周)NO.x1x2x3y113.09.250.013.0218.713.2102.014.0321.014.8150.015.0PEMS 3.1 说明书28419.013.3110.016.0522.816.0200.017.0626.018.2330.018.0728.019.7450.019.0831.022.5450.020.0930.321.4550.021.01029.220.5640.022.01136.225.2800.023.01237.026.11090.024.01337.927.21140.025.01441.630.01500.026.01538.227.11180.027.01639.427.41320.028.01739.227.61400.029.01842.029.41600.030.01943.030.01600.031.02041.127.21400.033.02143.031.02050.035.02249.034.82500.036.01、数据输入:先建立数据文件,数据录入格式如图所示。该实例数据输入时,定义 x1 为身长,x2 为头围,x3 为体重,y 为胎儿受精龄。2、操作步骤:在多元统计分析菜单中,选择回归分析中的主成分回归,屏幕出现其对话框。在此对话框中,将变量 x1、x2、x3 放入自变量框中,将变量 y放入因变量框中,最小累计贡献率定为 99.5,点击确定,便可得到分析结果。3、分析结果主成分回归第8章 多元统计分析29数据文件名:D:PEMS_Datadyfx5.xls因变量名:y分析变量总个数=4自 变 量 个 数=3样 本 含 量=22最小累计贡献率=99.5%特征根:No.特征根贡献率(%)累计贡献率(%)12.926797.557297.557220.07062.354799.911930.00260.0881100选取主成分个数 2复 相 关 系 数 0.9746校正复相关系数 0.9702回归系数的主成分估计:变量回归系数均数标准差常 数 项10.4303x10.100733.02739.7138x20.151223.26366.8575x30.0069936.9091690.3048【本分析结果完毕】4、结果解释相关阵的特征根为 2.9267、0.0706 和 0.0026,它们的贡献率分别为 97.5572、2.3547和 0.0881。由于最小累计贡献率定为 99.5,因此取前两个主成分作回归分析。最后主成分回归方程为y10.43030.1007x10.1512x20.0069x3。8.3相关分析8.3相关分析8.3.1线性相关线性相关如果要计算多个变量间两两相关系数(Pearson 相关)并对其进行假设检验,则可用线性相关分析。主要功能主要功能1变量的均数和标准差;2简单相关系数矩阵;3简单相关系数显著性检验的P值。分析示例分析示例例 某地 29 名 13 岁男童身高 x1(cm),体重 x2(kg),肺活量 y(L)的实测数据如下表,试作相关分析。(选自医用多元统计方法,P24,例 3.1)PEMS 3.1 说明书30编号身高(cm)x1体重(kg)x2肺活量(L)y编号身高(cm)x1体重(kg)x2肺活量(L)y1135.132.01.7516139.930.42.002163.646.22.7517146.533.52.503156.237.12.7518156.435.52.004167.841.52.7519149.731.01.505145.033.02.5020148.537.22.256165.549.53.0021135.027.61.257153.341.02.7522152.032.01.758160.547.22.2523153.032.01.759147.640.52.0024157.543.32.2510155.144.72.7525160.537.52.0011143.031.51.7526149.