最新多元分析ppt课件精品课件.ppt
《最新多元分析ppt课件精品课件.ppt》由会员分享,可在线阅读,更多相关《最新多元分析ppt课件精品课件.ppt(175页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元分析多元分析ppt课件课件 多因素分析多因素分析(multivariate analysis)是多变量资料的统计分析,与单因素分析相比,它可以在错综复杂的多因素中寻求事物内部的规律性及相互之间的联系。 1. 样本协方差样本协方差两个随机变量X与Y的协方差(covariance)度量的是X与Y的共同变异,它反映了二者之间的线性依存关系,对于n对观察值的样本 , , ,来说,其协方差的公式为 ),(11yx),(22yx),(nnyx)(111,yyxxnSiniiYX 由上述公式可以看出,两随机变量间的协方差协方差可正可负。 若一个随机变量的取值与另一随机变量的取值增加的方向一一致致(相反相
2、反),则协方差为正正(负负)。 2. 样本方差与协方差阵样本方差与协方差阵随机变量两两之间的协方差通常以矩阵矩阵的形式表示,例15.1中, 、 、 及 之间的方差与协方差阵为1X2X3XY8 .2894832.17358.2194776.411868.55316.67832.17868.55905.11326.13358.21316.67326.13589.182222321332313232212131211YYXYXYXYXXXXXXYXXXXXXYXXXXXXSSSSSSSSSSSSSSSS矩阵中,对角元素 或 为相应变量的方差方差,同时 , 。 从矩阵中各元素的取值可看出,各变量间存在
3、着正的线性协同关系。 2iXS2YSijjiXXXXSSiiYXYXSS 如果要考察各变量间协同程度的大小,必须消除量纲的影响,因此需要进一步分析各随机变量间的相关系数相关系数。3. 样本相关系数矩阵样本相关系数矩阵通常各变量间的样本相关系数以矩阵的形式表示,例15.1中各变量间的相关系数矩阵为1863. 0963. 0923. 0863. 01798. 0769. 0963. 0798. 01896. 0923. 0769. 0896. 014. 统计推断统计推断 通过例15.1的相关系数矩阵可以看出:各变量间的相关系数都比较大。那么,能否断定各变量之间必有相关性呢?答案是“未必”。 由于样
4、本相关系数只是对总体相关系数的估计,因此必须对总体相关系数是否为零进行假设检验。 16.15)220()963. 01 (963. 02t(二)偏相关 两个随机变量之间的相关系相关系数数,有时虽然经过假设检验具有统计学意义,但也不能轻易地断定它们具有相关关系。 要想得出较确切的结论,还需要排除其他因素的干扰,而偏偏相关系数相关系数(partial correlation coefficient)就具有这样的功能。 三重数据的偏相关系数的计算方法: 设X、Y、Z为随机变量,记 为X与Y去掉Z的线性效应后二者之间的偏相关系数偏相关系数ZXYr)1 ()1 (22YZXZYZXZXYZXYrrrrr
5、r例15.2 20名糖尿病人的血糖(Y,mmol/L)、胰岛素(X1,mU/L)及生长素(X2,g/L)的测定值列于表15.2中,试分析血糖与胰岛素及生长素之间的线性关系。 病例号 i 血 糖 Y 胰岛素 X1 生长素 X2 病例号 i 血 糖 Y 胰岛素 X1 生长素 X2 1 12.21 15.2 9.51 11 6.44 25.1 5.10 2 14.54 16.7 11.43 12 9.49 16.4 4.53 3 12.27 11.9 7.53 13 10.16 22.0 2.16 4 12.04 14.0 12.17 14 8.38 23.1 4.26 5 7.88 19.8 2.
6、33 15 8.49 23.2 3.42 6 11.10 16.2 13.52 16 7.71 25.0 7.34 7 10.43 17.0 10.07 17 11.38 16.8 12.75 8 13.32 10.3 18.89 18 10.82 11.2 10.88 9 19.59 5.9 13.14 19 12.49 13.7 11.06 10 9.05 8.7 9.63 20 9.21 24.4 9.16 表15.2 糖尿病人的血糖(Y,mmol/L)、胰岛素(X1,mU/L)及生长素(X2,g/L)的含量 血糖与胰岛素及生长素之间的简单相关系数分别为 ,8397. 01YXr6384
7、. 02YXr 虽经检验两个相关系数均有统计学意义,但如果扣除掉另外一个自变量的影响,则X1及X2与Y的偏相关系数分别为 ,7227. 021XYXr2005. 012XYXr 经检验,胰岛素与血糖之间存在的负相关具有统计学意义,而生长素与血糖之间的相关性无统计学意义。 此例说明在解释变量间的相关关系上,偏相关系数比简单相关系数更可靠些。 确定型回归与概率型回归 线性回归与非线性回归 多重线性回归 回归分析回归分析是定量研究应变量对自变量的依赖程度、分析变量之间的关联性并进行预测、预报的基本方法。 它是多元统计方法中的一个重要分支,随着计算机统计软件的普及,在医疗卫生领域的应用日益广泛。 多重
8、线性回归研究的是一个应变量Y和S个自变量 , , , 之间的线性依存关系。 构造多重线性回归模型需要有四个基本假定: 线性、独立、正态、等方差线性、独立、正态、等方差。1X2XSXssxbxbby110 建立回归方程后,还需考虑:第一第一,这一方程是否符合资料特点?第二第二,各个自变量对应变量的影响是否具有统计学意义?第三第三,每一观察点是否都能用这一方程得到很好的预报。 仍利用例15.1中的数据,以儿子身高为因变量,其它变量为自变量进行多重回归分析,所得回归模型为3210593. 0880. 0303. 0669.23xxxy 模型中, 前边的系数0.303表示:在父亲那一代人中,如果父亲比
9、同一代人的平均身高多出一厘米,则他的儿子将比儿子那一代人的平均身高多出0.303厘米; 前边的系数解释仿此; 前边的系数表明:参加体育活动的次数和身高之间存在正相关;常数项一般来说没有与其相对应的实际意义上的解释。1x2x3x 在比较各自变量对应变量相对贡献的大小时,由于各自变量的单位不同,不能直接用偏回归系数的大小作比较,须用所谓的标准化偏回归系数标准化偏回归系数(standardized partial regression coefficient)来作比较。 对例15.1中的各变量标准化后所得的回归方程为321224. 0566. 0244. 0 xxxy 上式中,对儿子身高的贡献从大到
10、小依次为: 母亲身高,父亲身高,参加体育活动的次数。 回归方程的配合适度检验 建立回归方程后,必须分析这一回归方程是否符合资料的特点,以及能否恰当地反映出应变量 与这p个自变量的数量依存关系。 此处介绍方差分析方法与确定系数分析方法。y 方差分析法 确定系数分析法 F= 误差回归误差回归MSMSpnSSpSS) 1/(/ 确定系数 R2 RSSSS2回归总 复相关系数 R 0R1 自变量的检验 在多元线性回归分析中,可能有的自变量对应变量的影响很强,而有的影响很弱,甚至完全没有作用。 这样就有必要对自变量进行选择,使回归方程中只包含对应变量有统计学意义的自变量,所谓的“最优最优”方程。 t检验
11、法 偏回归平方和法 1/SS /1xSS)(jpnxFj误差回归筛选自变量的方法 向后法 backward向前法 forward逐步法 stepwise(1)向后剔除法向后剔除法(backward selection): 先建立一个包含全部自变量的回归方程,然后每次剔除一个偏回归平方和最小且无统计学意义的自变量,直到不能剔除时为止,此法的计算量大。(2)向前引入法向前引入法(forward selection): 回归方程由一个自变量开始,每次引入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到无具有统计学意义的自变量可以引入为止。 用此法建立的方程有时不够精炼。(3)逐步筛选法
12、逐步筛选法(stepwise selection): 取上述两种方法的优点,在向前引入每一个新自变量之后,都应重新对前面已选入的自变量进行检查,以评价其有无继续保留在方程中的价值。 为此,引入和剔除交替进行,直到无具有统计学意义的新变量可以引入,同时,方程中也无失去其统计学意义的自变量可以剔除为止。在自变量的筛选中,选择自变量的标准很多,如可用校正确定系数(adjusted determinant) 作为判断标准,选择校正确定系数大者为“最优”方程。其计算公式为: (11.12)式中n为样本含量,p为方程中包含的自变量个数。Ra21) 1)(1 (122pnnRRa三、协方差分析 协方差分析协
13、方差分析(covariance analysis)是利用线性回归方法消除混杂因素的影响后所进行的方差分析。 例如,考虑药物对患者某个生化指标的影响时,欲比较实验组和对照组中该指标的变化均值是否有差异,就应消除一些难以控制的混杂因素的影响,如患者的病程长短、年龄大小等。 假设有三组变量X,Y,Z,其中Y是因变量,Z是分类变量(Z=1,2,k ),欲比较k 类中Y 的均值是否有差异,如果Y和X存在线性关系,则可通过协方差分析协方差分析消除X的影响。 因此,在作协方差分析前首先要检验这种线性关系。 其基本步骤是: 检验各类中Y和X是否存在线性关系; (2) 检验各类中回归系数是否相同; (3) 检验
14、各类回归模型中截距是否相同; (4) 检验以组内均值为新变量的线性回归模型 是否成立,并比较回归系数是否和前面第 二步中得到的相同; (5) 检验总回归系数是否为0。理论上讲,以 上步骤中只要有一项被拒绝,就不宜作协 方差分析。例15.3某医生欲了解成年人体重正常者与超重者的血清胆固醇是否不同。而胆固醇含量与年龄有关,资料见表15.3。 正常组 超重组 年 龄(X1) 胆固醇(Y1) 年 龄(X2) 胆固醇(Y2) 48 3.5 58 7.3 33 4.6 41 4.7 51 5.8 71 8.4 43 5.8 76 8.8 44 4.9 49 5.1 63 8.7 33 4.9 49 3.6
15、 54 6.7 42 5.5 65 6.4 40 4.9 39 6.0 47 5.1 52 7.5 41 4.1 45 6.4 41 4.6 58 6.8 56 5.1 67 9.2 ni 13 13 26 ( )n Xi 598 708 1306 ()X Xi2 28220 40596 68816 ()X2 Xi 46.0000 54.4615 50.2308 ()X Yi 66.2 88.2 154.4 ()Y Yi2 357.6 623.34 980.9400 ()Y2 Yi 5.0923 6.7846 5.9385 ()Y XYii 3114.1000 4993.5000 8107.6
16、000 ()XY 表15.3体重正常者与超重者的血清胆固醇(mmol/L)及年龄(岁)1本例研究目的是要了解正常人和超重者的胆固醇含量是否相同,即比较两组均数5.0923和6.7846之差1.6923有无统计学意义。如按两样本均数比较的t检验,t=-3.14,v=24,0.01P0.005,按=0.05水准拒绝H0,接受H1,认为两组胆固醇差别有统计学意义。由专业知识得知年龄与胆固醇含量有关,通常年龄较大者胆固醇含量较高。本例中,两组的 、 分别为46.0000、56.4615, 大于 ,即超重组的平均年龄大于正常组。若控制了年龄因素的干扰,则两组胆固醇含量的均数 之差应小于1.6923,所以
17、应把年龄作为一个协变量进行协方差分析。1X2X2X1XYY12与2若胆固醇含量与年龄的线性关系在正常组和超重组均成立且总体回归系数相等,即 ,且 ,则两条回归线平行。012)(11111XXbYY)(22222XXbYY 此时就可以估计两组胆固醇的修正均值 ,此两条回归线具有公共斜率 。 (15.9)YY12和bcXXXYcllb组内的组内的本例组内 ,组内 ,8923.258XYl2308.2749XXl09417. 02308.27498923.258cb3为扣除年龄对胆固醇比较的影响,令 ,求得修正的平均胆固醇值。XX )(111XXbYYc)(222XXbYYc两条回归方程之差为 (1
18、5.10)()()(212121XXbYYYYc本 例8955. 0)4615.540000.46(094169. 0)7846. 60923. 5()(21 YY, 可见修正均数YY12、之差为 0.8955,小于原均数之差 1.6923,说明协变量确实对原均数有影响。 4. 修正均数间的假设检验。 修正均数间的差别同样也存在抽样误差,故仍需进行假设检验。两个或多个修正均数间的比较可作方差分析, 对于完全随机设计资料, 可将回归分析算得的总残差平方和()YY2分解为修正均数(组间)和误差(组内)两部分,其自由度也相应地分解为修正均数和误差自由度两部分,然后按式(15.11)进行计算。 组内残
19、差组间组内残差离均差平方和方和修正均数组间离均差平vvF (15.11) H0:两总体胆固醇含量的修正均数相等 H1:两总体胆固醇含量的修正均数不等 0.05 872. 423/0465.211/4578. 4/组内残差组内残差修正修正vSSvSSF 查 F 界值表,得 0.05P0.01,按=0.05 水准,拒绝 H0,接受 H1,可以认为正常人组与超重者组胆固醇含量的均数在消除年龄的影响后差别有统计学意义,超重者胆固醇含量较高。 需注意的是: 协方差分析还要求比较组间的协变量X的观察值相差不宜太大,否则修正均数的差值可能落位于回归直线的延长线上。 由于不知道回归线外推后是否仍然满足平行性和
20、线性关系的条件,因此,由协方差分析所得的结论可能不正确。 logistic回归 logistic回归回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系。 适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形。模型中的自变量可以是定性离散值,也可以是计量观测值。 在医学研究中经常需探讨疾病的发生与否和暴露因素之间的关系,此类问题可用logistic回归来进行分析。 )()()()ln(222111lpipplililliixxxxxxQPQPY分类变量(0,1)X连续或分类变量 筛选自变量 和多元线性回归分析一样,在logistic回归分析中也须对自变量进行筛选,只保留对
21、回归方程具有统计学意义的自变量。 筛选自变量的方法也和多元线性回归中采用的方法一样,有向后剔除法、向前引入法及逐步筛选法三种。 在logistic回归中,筛选自变量的方法有似然比检验(likelihood ratio test)、计分检验(score test)、Wald检验(Wald test)三种。 其中似然比检验较为常用。 似然比检验计分检验Wald检验 例 15.4 某研究者欲探讨影响儿童视力的危险因素, 调查了某中学 65 名学生的视力和 8 个可能影响视力的有关因素。8 个因素中,1x为学习时的坐姿, “0”代表正确, “1”表示不正确;2x为平均每天看电视或玩游戏机的时间,单位是
22、“分钟” ;3x为每天睡眠时间, “0”表示每天超过 8 小时, “1”表示每天不足 8 小时;4x为饮食, “1”表示经常吃肉类和蔬菜, “2”表示常吃肉类,而吃青菜较少, “3”表示吃肉类与青菜均较少,有厌食倾向; 编号 1x 2x 3x 4x 5x 6x 7x y 1 0 35 1 2 0 0 4 0 2 0 40 1 1 0 0 1 0 64 1 70 1 1 0 0 2 0 65 0 70 0 2 1 1 4 0 表15.4 视力状况及相关因素调查表 采用强制自变量进入回归模型的方法,筛选出以下6个专业上认为有意义的因素,结果见表15.5。表 15.5 logistic 回归分析结果
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 多元 分析 ppt 课件 精品
限制150内