第8章多元分析.pdf
《第8章多元分析.pdf》由会员分享,可在线阅读,更多相关《第8章多元分析.pdf(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第8章 多元统计分析1第 8 章多元统计分析第 8 章多元统计分析8.1 多元均数向量的比较28.1.1 配对设计均向量比较28.1.2 成组设计两样本均向量比较48.1.3成组设计多个样本均向量比较68.2 回归分析98.2.1 多元线性回归98.2.2 多元逐步回归118.2.3 logistic 回归168.2.3.1 条件 logistic 回归168.2.3.2 非条件 logistic 回归198.2.4 Poisson 回归 218.2.5 指数回归228.2.6 Cox 回归 258.2.7 主成分回归278.3相关分析298.3.1 线性相关298.3.2 典型相关318.4
2、 判别分析358.4.1 多类判别(Fisher 法)358.4.2 逐步判别(Bayes 法)418.5 聚类分析468.5.1 样品系统聚类478.5.2 指标系统聚类498.5.3 样品逐步聚类518.5.4 有序样品聚类548.6 主成分分析 588.7 因子分析 61PEMS 3.1 说明书2第第 8 章多元统计分析章多元统计分析8.1多元均数向量的比较8.1多元均数向量的比较对多变量资料的分析,不能分别对单个变量进行一元分析。因为这种处理方法有以下缺点:(1)当变量较多时,重复进行一元分析会大大增加假阳性错误;(2)一元分析结果不一致时,难以得到一个综合结论;(3)忽略了变量间的相
3、互关系。克服上述缺点的做法是进行多元分析。多元分析的精髓之一是对 m 个相关变量同时进行分析。对一元分析,配对设计和两均数的比较用t检验,对多元分析来说,配对设计和两组均向量的比较用 HotellingT2检验,简称多元T检验;对多组设计的资料,单变量分析用方差分析(ANOVA)方法,而对多组均向量的比较则用多元方差分析。8.1.1配对设计均向量比较配对设计均向量比较主要功能主要功能1变量差值的均数和标准差;2原始数据的协方差矩阵;3HotellingT2值、HotellingF值及P值。分析示例分析示例例用胸腺素治疗 15 例病毒性心肌炎细胞免疫功能低下症,结果如下表。试问,胸腺素治疗前后免
4、疫球蛋白是否有改变?(选自医用多元统计分析方法,P9,例2.1)IgGIgAIgM疗前疗后差值疗前疗后差值疗前疗后差值18101654-156246196-50292243-4917441568-176213208-5286272-1418061743-63226214-12297276-2117121584-128238168-70265274916421649722724215307289-1816851543-142260198-622462651917281624-10413821274312288-2416951500-19519620711266262-417601340-4202
5、33179-542432591616901454-236256196-60334296-3816671453-214297209-88285263-2217031564-13921222311296274-2217151644-7122823792492601116991543-156236205-31266262-417331684-49202197-5308288-201、数据输入:先建立数据文件,数据录入格式如图所示。该实例数据输入时,第8章 多元统计分析3定义 IgG0 为疗前的 IgG,IgG1 为疗后的 IgG;同理,定义 IgA0、IgM0 分别为疗前的 IgA、IgM,IgA1
6、、IgM1 分别为疗后的 IgA、IgM。2、操作步骤:在多元统计分析菜单中,选择多元均数向量的比较中的配对设计均向量比较后,屏幕出现其对话框,如图所示。在此对话框中,将变量依次成对,即将 IgG,IgA,IgM 按各自治疗前后顺序(IgG0、IgG1、IgA0、IgA1、IgM0、IgM1)放入分析变量框中,点击确定,便可得到分析结果。3、分析结果配对设计多元T检验数据文件名:D:PEMS_Datadyfx1.xls分组变量名:分析样本个数=3样本含量=15各对差值的均数和标准差配对变量均 数标准差PEMS 3.1 说明书4IgG1 IgG0-149.466799.5008IgA1 IgA0
7、-21.133343.0811IgM1 IgM0-12.066719.6704协方差矩阵9900.40952047.719-391.8192047.7191855.981-108.4381-391.819-108.4381386.9238Hotelling T2=47.6559HotellingF=13.616P=0.0004【本分析结果完毕】4、结果解释T247.6559,F=13.616,P=0.00040.05,拒绝原假设,可以认为胸腺素治疗前后免疫球蛋白有改变。8.1.2成组设计两样本均向量比较成组设计两样本均向量比较主要功主要功能能1原始数据的均数和标准差;2原始数据的协方差矩阵;3
8、HotellingT2值、HotellingF值及P值。分析示例分析示例例两组贫血患者其血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2)如下表。问两组患者的贫血程度是否有差异。(选自医用多元统计分析方法,P11,例 2.2)A 组B 组X1X2X1X23.92104.82704.21904.71803.72405.42304.01704.52454.42204.62705.22304.42202.71605.92902.42605.52203.62404.32905.51805.13102.92003.33001、数据输入:先建立数据文件,数据录入格式如图所示。该实例数据输入时,定义
9、G 为分组变量,其值为 1、2 分别代表 A、B 两组,X1为血红蛋白浓度,X2为红细胞计数。第8章 多元统计分析52、操作步骤:在多元统计分析菜单中,选择多元均数向量的比较中的成组设计两样本均向量比较 后,屏幕出现其对话框,如图所示。在此对话框中,将变量 G(取值为 1,2)放入分组变量框中,将变量 X1及 X2放入分析变量框中,点击确定,便可得到分析结果。3、分析结果成组设计多元T检验数据文件名:D:PEMS_Datadyfx2.XLS分组变量名:G分析变量个数=2组数=2均数和标准差组 别变量均数标准差第1组X13.81670.9389X2216.666740.3019第2组X14.92
10、0.5329X2252.540.3629合 计X14.31820.9485X2232.954543.388第1组的协方差矩阵0.8815-8.5758-8.57581624.2424PEMS 3.1 说明书6第2组的协方差矩阵0.2842.52.51629.1667合并协方差矩阵0.6126-3.5917-3.59171626.4583Hotelling T2=16.9184HotellingF=8.0362P=0.0030【本分析结果完毕】4、结果解释T216.9184,F=8.0362,P=0.00300.05,拒绝原假设,可以认为两组贫血患者的血红蛋白浓度及红细胞计数是有差别的,B组高于
11、A组。8.1.3成组设计多个样本均向量比较成组设计多个样本均向量比较主要功主要功能能1原始数据的均数和标准差;2组间离差阵、组内离差阵以及总离差阵;3Wilks lamda值、Rao sF值及P值4多个样本均向量的两两比较。分析示例分析示例例三组贫血患者其血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2)如下表。问三组患者的贫血程度是否有差异。(选自医用多元统计分析方法,P12,例 2.3)A 组B 组C 组X1X2X1X2X1X23.92104.82704.42504.21904.71803.73053.72405.42302.92404.01704.52454.53304.42204
12、.62703.32305.22304.42204.51952.71605.92903.82752.42605.52203.73103.62404.32905.51805.13102.92003.3300第8章 多元统计分析71、数据输入:先建立数据文件,数据录入格式如图所示。该实例数据输入时,定义 g 为分组变量,其值为 1、2、3 分别代表 A、B、C 组,X1为血红蛋白浓度,X2为红细胞计数。2、操作步骤:在多元统计分析菜单中,选择多元均数向量的比较中的成组设计多个样本均向量比较 后,屏幕出现成组设计多个样本均向量比较对话框。在此对话框中,将变量 g(取值分别为 1,2,G 组)放入分组变
13、量框中,将变量 X1及 X2放入分析变量框中,点击确定,便可得到分析结果。3、分析结果成组设计多元方差分析数据文件名:D:Pems_Datadyfx3.xls分组变量名:g分析变量个数=2组数=3均数和标准差组 别变量均数标准差第1组x13.81670.9389x2216.666740.3019第2组x14.920.5329x2252.540.3629第3组x13.850.5855x2266.87546.1316PEMS 3.1 说明书8合 计x14.19330.8824x224245.931组间离差阵 SSB7.926122.4833122.483313753.9583组内离差阵 SSW14
14、.6527-53.5833-53.583347426.0417总离差阵 SST22.578768.968.961180多元方差分析结果WilksLamda=0.5027RaosF=5.335P=0.0011两两比较结果对比组Mahalanobis DFP第1组 与 第2组3.15188.27750.0018第1组 与 第3组1.45023.35150.0520第2组 与 第3组2.17224.64840.0197【结果完毕】4、结果解释方差分析:Wilks Lamda=0.5027,Raos的F=5.335,P=0.00110.05,不拒绝原假设,尚不能认为1、3两组贫血患者的血红蛋白浓度及红
15、细胞计数是有差别的;而1组与2组、2组与3组比较的P均小于0.05,故可以认为1组与2组,2组与3组贫血患者的血红蛋白浓度及红细胞计数是有差别的。第8章 多元统计分析98.2回归分析8.2回归分析8.2.1多元线性回归多元线性回归在客观世界中,事物之间的关系往往比较复杂。一个因变量与一个自变量发生关系的简单线性回归模型的情形是比较少见的。在多数情况下,都是一个因素受到其他许多因素的制约和影响,如血压值的大小除了与年龄有关外,还受到性别、劳动强度、饮食习惯、吸烟状况、家族史等因素的影响。因此,实际工作需要我们把简单线性回归模型加以扩展,研究一个因变量与多个自变量之间的线性关系,找出它们之间关系的
16、函数表达式,从而达到预报作用,这就是多元线性回归。设有 m 个自变量 X1,X2,Xm及一个因变量 Y,则其 m 元线性回归方程的一般形式为:mmXbXbXbbY22110,其中 bi为偏回归系数,它的意义是指当其他各自变量的值均被固定时,Xi改变 1 个单位 Y 所改变的量。主要功能主要功能1复相关系数、校正复相关系数和剩余标准差;2原始数据的均数和标准差;3偏回归系数、标准偏回归系数及回归系数的标准误;4回归方程的假设检验及回归系数的假设检验。分析示例分析示例例某地 29 名 13 岁男童身高 x1(cm),体重 x2(kg),肺活量 y(L)的实测数据如下表,试建立肺活量与身高、体重的回
17、归关系。(选自医用多元统计分析方法,P24,例 3.1)编号身高(cm)x1体重(kg)x2肺活量(L)y编号 身高(cm)x1体重(kg)x2肺活量(L)y1135.132.01.7516153.032.01.752139.930.42.0017147.640.52.003163.646.22.7518157.543.32.254146.533.52.5019155.144.72.755156.237.12.7520160.537.52.006156.435.52.0021143.031.51.757167.841.52.7522149.433.92.258149.731.01.502316
18、0.840.42.759145.033.02.5024159.038.52.5010148.537.22.2525158.237.52.0011165.549.53.0026150.036.01.7512135.027.61.2527144.534.72.2513153.341.02.7528154.639.52.5014152.032.01.7529156.532.01.7515160.547.22.25PEMS 3.1 说明书101、数据输入:先建立数据文件,数据录入格式如图所示。该实例数据输入时,定义 X1 为身高,X2 为体重,Y 为肺活量。2、操作步骤:在多元统计分析菜单中,选择回归
19、分析中的多元线性回归后,屏幕出现多元线性回归对话框。在此对话框中,将自变量 X1、X2 放入自变量框中,将因变量 Y 放入因变量框中,点击确定,便可得到分析结果。3、分析结果多 元 线 性 回 归数据文件名:D:PEMS_Datadyfx16.xls因变量名:Y分析变量总个数=3自 变 量 个 数=2样 本 含 量=29复 相 关 系 数=0.7389校正复相关系数=0.7149剩 余 标 准 差=0.3137回归方程的线性假设检验:F=15.6319P=0.0000均数和标准差变量均数标准差X1152.57598.3622X237.12765.5328Y2.20690.4486方差分析表第8
20、章 多元统计分析11变异来源SS自由度vMSFP总 变 异5.633628回归3.075721.537915.63190.0000误差2.5579260.0984回归系数的检验变 量偏回归系数标准偏回回归系数tP归 系 数的标准误常 数-0.5657X10.00500.09350.01060.47440.6391X20.05410.66680.01603.38220.0022【本分析结果完毕】4、结果解释回归方程为Y=0.56570.005X1+0.0541X2,从方差分析表可知,F15.6319,P0.00000.05,故回归方程是有意义的。但从偏回归系数的t检验知身高的回归系数b1无统计学
21、意义,而体重的回归系数b2有统计学意义,它表明身高不变时,体重每增加1千克,肺活量就增加0.0541升。8.2.2多元逐步回归多元逐步回归逐步回归分析属于多元线性回归分析的范畴,它是为了建立“最佳”多元线性回归方程而对一般多元线性回归分析方法进行的一种改良。多元线性回归分析是把所有自变量全部放进回归方程中去,而不考虑每个因子在回归方程中所起的作用,可能将无统计学意义的自变量也纳入回归方程,反而降低了模型估计的精度。为了克服这一缺点而建立起一个对自变量的双向筛选程序:把具有明显回归效果的自变量选入方程中,对作用不明显的自变量不选入或剔除出回归方程。这种筛选程序是一步一步进行的,所以称为逐步回归分
22、析。它主要有逐步向前法和逐步向后法两种。逐步向前法:将自变量逐个地引入方程,引入的条件是该自变量的偏回归平方和在未选入的自变量中是最大的,并经F检验是有统计学意义的。另一方面,每引入一个新变量,要对先前已选入方程的变量逐个进行F检验,将偏回归平方和最小且无统计学意义的变量剔除出方程,直至方程外的变量不能再引入,方程中的自变量不能再剔除为止。逐步向后法:首先建立包括全部自变量的回归方程,然后逐步地剔除变量,先对每一自变量作F检验,剔除无统计学意义的变量中偏回归平方和最小的自变量,PEMS 3.1 说明书12重新建立方程。接着对方程外的自变量逐个进行F检验,将偏回归平方和最大且有统计学意义的变量引
23、入方程。重复上述过程,直至方程中的所有自变量都有统计学意义而方程外的自变量都没有统计学意义为止。主要功能主要功能1变量筛选的情况,包括进入或被剔出方程的变量,剔选时的值,每步方程中的变量数、复相关系数、校正复相关系数和剩余标准差等;2最后建立的方程的偏回归系数、标准偏回归系数及回归系数的标准误;3最后建立的方程的复相关系数、校正复相关系数和剩余标准差;4方程中回归系数的假设检验及回归方程的假设检验。不同的界值所得方程可能不同,一般来说界值大,进入方程的变量就少一些;界值小,进入方程的变量就多一些。但界值的大小与选出的方程是否最优没有必然的联系。用户可多选几个界值,多建立几个方程,比较各方程的校
24、正复相关系数或剩余标准差,以便得到局部最优方程。分析示例分析示例例下表资料(选自史秉璋、杨琦医用多元分析P102-103),试进行逐步回归分析。X1X2X3X4YX1X2X3X4Y137261911.5166191410.21511403419.82410322619.8218291713.72211393825.31912153321.610717209.72711132722.3188342214.83210211519.12911282120.7178181611.71811163219.62610352319.41610153420.3146141810.6187231411.1281
25、3213425.52311292920.7199132918.72513414028.91210193819.3329121518.3238251715.63611371821.52811333224.7319251417.7219181915.32913143828.33514243429.81810113521.61、数据输入:先建立数据文件,数据录入格式如图所示。2、操作步骤:在多元统计分析菜单中,选择回归分析中的多元逐步回归后,屏幕出现逐步回归对话框。在此对话框中,选入变量的方法选择前进法(也可选后退法),将自变量 X1、X2、X3、X4 放入自变量框中,将因变量 Y 放入因变量框中,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 分析
限制150内