《统计建模多元回归分析.ppt》由会员分享,可在线阅读,更多相关《统计建模多元回归分析.ppt(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数学与生物数学教研室 蔡昌启 回归分析回归分析 在许多科研问题中在许多科研问题中,经常遇到一些同处经常遇到一些同处于一个于一个统一体统一体中的变量中的变量,这些变量之间往往这些变量之间往往是相互依赖和相互制约的是相互依赖和相互制约的,根据实际问题的根据实际问题的要求要求,我们往往需要找出描述这些变量之间我们往往需要找出描述这些变量之间依存关系的数学表达式依存关系的数学表达式(数学模型数学模型).).(regression analysis)一、什么是回归分析变量之间的相互关系大致可分为两类变量之间的相互关系大致可分为两类:(1)(1)确定关系确定关系-函数关系函数关系.(2)(2)不确定关系不
2、确定关系-相关关系相关关系.在许多实际问题中在许多实际问题中,由于生产或试验过由于生产或试验过程不可避免存在着误差的影响程不可避免存在着误差的影响,使得变量之间使得变量之间的关系具有某种程度的的关系具有某种程度的不确定性不确定性,并且不能用并且不能用函数表示函数表示,这些变量其实是随机变量或至少其这些变量其实是随机变量或至少其中有一个是随机变量中有一个是随机变量.为确定随机变量与随机变量为确定随机变量与随机变量(或非随机变或非随机变量量)之间的相依关系之间的相依关系,需采用统计分析方法总需采用统计分析方法总结出隐藏在随机性后面的统计规律性结出隐藏在随机性后面的统计规律性(统计模统计模型型).这
3、类统计规律称为这类统计规律称为回归关系回归关系.有关回归关系的计算方法和理论统称有关回归关系的计算方法和理论统称回回归分析归分析(regeression analysis).回归分析的目的是寻求一个随机变量回归分析的目的是寻求一个随机变量Y(因变量因变量)对一组随机变量对一组随机变量X1,X2,Xp(自变自变量量)的统计依赖关系的统计依赖关系.二、回归分析的目的二、回归分析的目的 一般来说一般来说,可通过直观的方法可通过直观的方法(如散点如散点图图)进行粗略判断进行粗略判断.如只有一个自变量如只有一个自变量,则称则称为为一元回归分析一元回归分析;如自变量个数多于一个如自变量个数多于一个,则称为
4、则称为多元回归分析多元回归分析.三、变量的确定及要求三、变量的确定及要求 将一个需要预测的变量作为将一个需要预测的变量作为因变量因变量,它的取值是可观测的但不可控制的它的取值是可观测的但不可控制的 ;将被将被认为对因变量的取值认为对因变量的取值具有显著影响具有显著影响的哪些的哪些变量作为变量作为自变量自变量.通常情况下通常情况下,自变量的取值能得以控制自变量的取值能得以控制,称为可控变量称为可控变量.例如,我们希望通过一些例如,我们希望通过一些易测易测的的指标指标去去预测正常儿童的心象面积预测正常儿童的心象面积,由于心象面积是由于心象面积是一个一个不易检测不易检测的的指标指标,是一个需要预测的
5、变,是一个需要预测的变量量,根据专业知识根据专业知识,认为性别、年龄、身高、,认为性别、年龄、身高、体重、胸围可能对心象面积都有影响。体重、胸围可能对心象面积都有影响。因变量(因变量(Y)-心象面积心象面积;自变量自变量-性别性别(X1)、年龄、年龄(X2)、身、身高高(X3)、体重、体重(X4)、胸围、胸围(X5)。四、回归分析的基本原理四、回归分析的基本原理 回归分析的实质是根据隐含统计规律性回归分析的实质是根据隐含统计规律性的观测值的观测值,求出因变量对自变量的具体表达求出因变量对自变量的具体表达式式 y=f(x1,x2,xp).一般一般,自变量自变量X1,X2,Xp是是可控变量可控变量
6、,控制它们取特殊值控制它们取特殊值x1,x2,xp时时,对不同个对不同个体体,Y的取值依然不同的取值依然不同(随机性随机性),),Y依然是随机依然是随机变量变量,记为记为Y(x1,x2,xp).Y虽然不能完全确定虽然不能完全确定(随机变量随机变量),),但却有但却有一个确定的一个确定的条件分布条件分布p(p(Yx1,x2,xp),),从而从而有一个确定有一个确定条件均值条件均值 E(E(Yx1,x2,xp),),它它是是x1,x2,xp的函数的函数.是否可用是否可用y=E(=E(Yx1,x2,xp)作为作为Y对对X1,X2,Xp的回归方程的回归方程?定义定义1 1 (均方误差均方误差)设设(Y
7、,X1,X2,Xp)具有联合分布且二阶矩存在具有联合分布且二阶矩存在,f(X1,X2,Xp)是随机变量是随机变量X1,X2,Xp的函数的函数,则称则称EY-f(X1,X2,Xp)2为f(X1,X2,Xp )对对Y的的均方误差均方误差(mean square error).).均方误差从平均意义上反映了函数均方误差从平均意义上反映了函数f(X1,X2,Xp)与随机变量随机变量Y之间差别的大小之间差别的大小 ,它可作为回归函数好坏的判断标准它可作为回归函数好坏的判断标准.如果如果某个函数与某个函数与Y的均方误差最小的均方误差最小,我们有理由我们有理由认为在均方误差最小标准下将它作为回归认为在均方误
8、差最小标准下将它作为回归函数进行预报是最好的函数进行预报是最好的.E Y-f(X1,X2,Xp)2 2 定义定义2 2 在定义在定义1 1的条件下的条件下,函数函数E(YX1,X2,Xp)是所有是所有X1,X2,Xp的的函数中均方误差最小的函数函数中均方误差最小的函数,即对任意给即对任意给定的函数定的函数f(X1,X2,Xp),),总有总有E Y-E(-E(YX1,X2,Xp)2 2成立成立.定义定义2 2揭示用揭示用E(Yx1,x2,xp)去预去预报报Y在在均方误差最小均方误差最小标准下是最好的标准下是最好的,因此因此,y=E(Yx1,x2,xp)就是我们寻找的回归函数就是我们寻找的回归函数
9、.在在(Y,X1,X2,Xp)的联合分布为的联合分布为多元正态多元正态分布分布时时,E(Yx1,x2,xp)为为x1,x2,xp的线性函数的线性函数,此时的回归函数为此时的回归函数为y=a0+a1x1+a2x2+ap xp我们称它为我们称它为多元线性回归方程多元线性回归方程.五、多元线性回归模型五、多元线性回归模型 设设p个自变量个自变量X1,X2,Xp 的取值的取值为为x1,x2,xp 时,随机时,随机Y变量满足变量满足其中其中a0,a1,a2,,ap,2均为未知常数,均为未知常数,a0,a1,a2,ap,称为称为“偏回归系数偏回归系数”;2称为随机误差的称为随机误差的方差方差。称上式为称上
10、式为p元正态线性回归模型元正态线性回归模型.对对p元线性回归模型我们要解决如下问题元线性回归模型我们要解决如下问题:1.根据样本观测值去估计未知参数根据样本观测值去估计未知参数a0,a1,a2,ap,2,从而建立从而建立Y与与X1,X2,Xp 间的关系式间的关系式(回归方程回归方程);2.对回归方程的回归效果进行统计检验对回归方程的回归效果进行统计检验;3.检验各变量检验各变量X1,X2,Xp分别对指标分别对指标(Y)是否有显著影响是否有显著影响.按最小二乘估计的原理估计未知参数.实实 际际 问问 题题:已已 知知 29例例 儿儿 童童 的的 血血 红红 蛋蛋 白白(hemoglo,g)与与钙
11、钙(Ca,g)、镁镁(Mg,g)、铁铁(Fe,g)、锰锰(Mn,g)、铜铜(Cu,g)的的含含量量如如表表,试试建建立立一一个个钙钙、镁镁、铁铁、锰锰、铜铜预预测测血血红红蛋蛋白白的的数学模型数学模型。1 54.89 30.86 448.70 .012 1.010 13.50 2 72.49 42.61 467.30 .008 1.640 13.00 3 53.81 52.86 425.61 .004 1.220 13.75 编号编号 钙钙 镁镁 铁铁 锰锰 铜铜 血红蛋白血红蛋白29 47.31 28.55 294.70 .005 .838 7.00多元线性回归多元线性回归数学模型数学模型
12、1.单击单击 “开始开始”“程序程序”SPSS for windows SPSS10.0 for windows type in data OK 单单击击 “Variable View ”(”(在第一列输入钙在第一列输入钙 、镁镁 、铁、铁 、锰、锰 、铜、铜 、血红蛋白、血红蛋白 ;单击;单击 “Data View”。SPSS软件的实现与结果分析软件的实现与结果分析2.SPSSSPSS输入输入数据数据格式格式:29行行6列列2.程序选项程序选项 Analyze Regression Linear 引入回归分析的因变量引入回归分析的因变量:引入回归分析的自变量引入回归分析的自变量:血红蛋白血红
13、蛋白.钙、镁、铁、锰、铜钙、镁、铁、锰、铜.在多元回归方法在多元回归方法(Method)中选:强迫引入法中选:强迫引入法(Enter)单击单击 Statistics;选项如下选项如下图图 ;单击单击 Continue Plots 点击点击 Plots 获得分析资料的正态性检验图形。获得分析资料的正态性检验图形。单击单击 Continue OK。2.2.方差分析表方差分析表1.1.模型摘要模型摘要主要结果主要结果3.3.回归系数表回归系数表 结论结论:回归效果检验对应的统计量回归效果检验对应的统计量 F=19.552,P.000,认为利用钙、镁、铁、锰、铜预测血红蛋白有认为利用钙、镁、铁、锰、铜预测血红蛋白有实际意义。实际意义。预测血红蛋白的数学模型预测血红蛋白的数学模型:R2=0.810,较大较大,认为回归方程有意义认为回归方程有意义.从偏回归(回归系数)效果检验来看,镁、从偏回归(回归系数)效果检验来看,镁、锰、铜对应的概率值大于锰、铜对应的概率值大于0.10,说明偏回归效果不说明偏回归效果不显著显著,故需作进一步分析讨论(故需作进一步分析讨论(逐步回归逐步回归)。)。
限制150内